見出し画像

動画生成AI Googleが「Lumiere」(リュミエール)を発表

革新的な変革をもたらすAIモデル
全動画を一貫した単一のプロセスで生成が可能


Googleが動画生成AI「Lumiere」を2024年1月24日に発表しました。Lumiereではフレーム同士が自然につながった違和感の少ない動画を生成可能で、テキストや画像を入力して動画を生成できるほか、動画の一部分を指定して別の動画に置き換えたり、写真の一部分だけを動かしたりといった操作も可能です。

Lumiere

<a href="https://lumiere-video.github.io/"style="color: #0000EE;"> Google Research
LUMIERE A Space-Time Diffusion Model for Video Gene</a>


目次

■Googleの動画生成AI「Lumiere」とは
■自然で違和感の少ない動画生成技術
■「Lumiere」の特徴
■「Lumiere」の技術的特徴と革新性
■Space-Time U-Netアーキテクチャ


Googleの動画生成AI「Lumiere」とは



Googleが新たに開発した動画生成AI「Lumiere」は、高品質で柔軟性を持つ動画生成ツールです。 Lumiereは、テキストや画像を入力して動画を生成することはもちろん、動画の特定の部分を指定して別の動画に置き換えたり、写真の一部を動かしたりすることも可能です。

Lumiereは、動画全体のフレームを一度に生成するアプローチを採用しており、よりリアルで滑らかな動画が実現されます。 Lumiereは、1024×1024ピクセルの5秒間の動画を生成することができます。

自然で違和感の少ない動画生成技術


テキストや画像を入力して動画を生成できるAIは数多く存在していますが、それらのAIの多くは「フレームを複数枚生成し、フレーム同士を補間する」という手法で動画を生成しているため、フレーム同士のつながりが不自然になりがちです。

一方で、Lumiereは「動画全体のフレームを一度に生成する」という手法を採用しており、フレーム同士のつながりが自然で違和感の少ない動画を生成することが可能となっています。

生成可能な動画のフレームレートは16fpsで、生成される動画の長さは5秒です。

以下の動画からLumiereで生成した動画の生成例を確認することができます。

「Lumiere」の特徴


Lumiereは多様な入力方法に対応しています。テキスト、静止画、既存の動画など、様々なメディアからの入力に基づいて動画を生成でき、この機能は、ユーザーが独自のクリエイティブなアイデアを動画に変換することを可能にしてくれます。例えば、簡単な文章やスケッチからも、魅力的な動画生成画もできます。

・Text-to-video機能

この機能を使うと、テキストから動画を生成することができます。Lumiereは、Space-Time U-Netアーキテクチャを使用しており、テキストから動画を生成する際に、自然な動きを持つ動画を生成することができます。

この機能では、ユーザーはテキストの記述をするだけで動画を生成することができます。

例えば、映画のシーンや広告のシナリオをテキストで記述して、それを基にした動画を作成することができます。


・Image-to-video機能

Lumiereは、画像から動画を生成するImage-to-video機能も持っています。この機能を使うと、画像から動画を生成することができます。
画像からビデオを生成する機能なので、一枚の画像を元に動画を生成することができます。

この機能を使うことで、画像内の特定のオブジェクトや風景を動かし、動画として再現することが可能になります。


 

・STYLIZED GENERATION機能

さらに、Lumiereは、STYLIZED GENERATION機能を持っています。スタイライズド生成は、芸術的なスタイルや特定の視覚効果を適用して動画を生成することができます。

この機能を使うと、1枚の画像を参照にして、その画像のスタイルに合わせた動画を生成することができます。例えば、「Reference Style Image」に設定したがぞyのスタイルを参照して「熊を踊らせる(A bear dancing))」といった指定をすることで、参照元の芸術スタイルを反映した動画の生成が可能です。


・Video Inpainting機能

Video Inpaintingは動画内の特定部分を編集することが出来る機能です。例えば、ビデオインペインティングを使うことで、動画内の人物やその一部を変更したり、追加したりすることができます。

動画の一部分だけを選択して加工をするため、女性の首から下だけを選択して、「金色のストラップレスガウンを着ている」「しま模様のストラップレスドレスを着ている」というプロンプトを入力することで女性の衣服を変更する加工が可能です。


また、他の例ではヒヨコの胴体を選択して「バスローブを着ている」というプロンプトで加
工したり、頭頂部を選択して「パーティーハットを着用している」というプロンプトを入力することで、加工することもできます。

・Cinemagraphs機能

動きを加える機能として、シネマグラフが搭載されています。
この機能を活用することで、画像の一部分を動かすといった操作も可能です。

静止画に動きを加えることで、より魅力的な動画を作成することができます。Runwayのモーションブラシが一時期話題になりましたがそれに似た機能になります。

「チョウの羽根を羽ばたかせる」


動画の欠けた部分を補うことも可能です。動画の一部分を黒塗りし、黒塗りした部分を生成動画で補うこともできます。


Lumiereの技術的な詳細は以下の論文で確認できます。

[2401.12945] Lumiere: A Space-Time Diffusion Model for Video Generation

<a href="https://arxiv.org/abs/2401.12945"style="color: #0000EE;"> Lumiere: A Space-Time Diffusion Model for Video Generation </a>


この記事は無料でどなたでも読むことが出来ます。こちらのリンクから続きをお読みいただけます。


もし、サポートをいただいた場合は、現在進行形の制作や今後のチャレンジのために大切に使わせていただきます。 サポートや支援の代わりに、シェアかコメントをいただけると大変励みになります。!