見出し画像

Sora - 世界シミュレータとしての動画生成モデル

以下の記事が面白かったので、簡単にまとめました。

Video generation models as world simulators


1. はじめに

このテクニカルレポートでは、(1)あらゆる種類のビジュアルデータを、生成モデルの大規模学習できる表現に変換する手法(2)「Sora」の能力と限界の定性的評価 について紹介しています。モデルと実装の詳細は含まれていません。

多くの先行研究では、リカレントネットワーク、生成的敵対ネットワーク、自己回帰変換器、拡散モデルなど、様々な手法を用いて映像データの生成的モデリングが研究されています。OpenAIの最大の動画生成モデルである「Sora」はビジュアルデータの汎化モデルであり、様々な時間、アスペクト比、解像度にまたがる動画や画像を生成することができます。

2. ビジュアルデータのパッチ化

LLMパラダイムの成功は、テキスト、数学、様々な自然言語といった多様なモダリティをエレガントに統合する「トークン」の使用によって可能になりました。本研究では、ビジュアルデータの生成モデルが、この利点をどのように継承できるかを検討しています。LLMがテキスト・トークンを持つのに対し、「Sora」はビジュアル・「パッチ」を持ちます。パッチはビジュアルデータのモデルにとって効果的な表現であることが過去に示されています。パッチが多様な種類の動画や画像で生成モデルを学習するための、拡張性の高い効果的な表現であることを発見しました。

高レベルでは、最初に動画を低次元の潜在空間に圧縮し、次にその表現を時空パッチに分解することによって、動画をパッチに変換します。

3. 動画圧縮ネットワーク

ビジュアルデータの次元を削減するネットワークを学習します。このネットワークは、生の動画を入力として受け取り、時間的および空間的に圧縮された潜在表現を出力します。「Sora」はこの圧縮された潜在空間で学習され、その後、この圧縮された潜在空間内で動画を生成します。また、生成された潜在をピクセル空間にマップし直す、対応するデコーダー モデルも学習します。

4. 時空潜在パッチ

圧縮された入力動画が与えられると、Transformerトークンとして機能する一連の時空パッチを抽出します。画像は単一フレームの動画にすぎないため、このスキームは画像にも機能します。パッチの表現により、「Sora」はさまざまな解像度、長さ、アスペクト比の動画や画像で学習できます。推論時に、ランダムに初期化されたパッチを適切なサイズのグリッドに配置することで、生成される動画のサイズを制御できます。

5. 動画生成のための Scaling Transformer

「Sora」はdiffusionモデルであり、入力されたノイズの多いパッチ(およびテキストプロンプトのような条件付け情報)が与えられると、元の「きれいな」パッチを予測するように学習されています。重要なことは、「Sora」はDiffusion Transformerであるということです。Transformerは、言語モデリング、コンピュータビジョン、画像生成など、様々な領域で顕著なスケーリング特性を示しています。

この研究では、Diffusion Transformers が動画モデルとしても効果的に拡張されることがわかりました。以下に、学習の進行に伴う固定シードと入力を含む動画サンプルの比較を示します。学習コンピューティングが増加すると、サンプルの品質が著しく向上します。

動画は情報源を参照

6. 可変な 持続時間・解像度・アスペクト比

動画生成に対するこれまでのアプローチでは、通常、動画を標準サイズ (解像度 256x256 の 4 秒の動画など) にサイズ変更、クロップ、トリミングします。代わりに、ネイティブサイズでデータを学習すると、いくつかの利点が得られることがわかりました。

6-1. サンプリングの柔軟性

「Sora」は、ワイドスクリーン 1920x1080p 動画、垂直 1080x1920 動画、およびその間のすべてのものをサンプリングできます。これにより、「Sora」はさまざまなデバイス向けのコンテンツをネイティブのアスペクト比で直接作成できるようになります。また、フル解像度で生成する前に、すべて同じモデルを使用して、より低いサイズでコンテンツのプロトタイプを迅速に作成することもできます。

動画は情報源を参照

6-2. フレームと構図の改善

ネイティブのアスペクト比で動画を学習すると、フレームと構図が改善されることが経験的にわかっています。すべての学習動画を正方形にトリミングするモデルと「Sora」を比較します。正方形クロップで学習されたモデル (左) は、被写体が部分的にしか表示されていない動画を生成することがあります。 比較すると、「Sora」 (右) の動画はフレームが改善されています。

動画は情報源を参照

6-3. 言語理解

Text-to-Videoのモデルを学習するには、対応するキャプションを含む大量の動画が必要です。「DALL-E 」で導入されたリキャプション技術を動画に適用します。まず、非常に説明的なキャプションモデルを学習し、次にそれを使用して学習セット内のすべての動画のキャプションを生成します。非常に説明的な動画キャプションを学習すると、動画の全体的な品質だけでなく、テキストの忠実度も向上することがわかりました。

「DALL-E3」と同様に、「GPT」を活用して、短いユーザープロンプトをより長い詳細なキャプションに変換し、動画モデルに送信します。これにより、「Sora」はユーザーのプロンプトに正確に従う高品質動画を生成できるようになります。

7. 画像やビデオによるプロンプト

ランディングページの結果には、Text-to-Videoのサンプルが表示されます。ただし、「Sora」は既存の画像や動画など、他の入力を求めることもできます。これにより、「Sora」は完全にループする動画の作成静止画像のアニメーション化動画の前後方向への拡張など、幅広い画像・動画編集タスクを実行できるようになります。

7-1. 静止画像のアニメーション化

画像とプロンプトを入力として提供される動画を生成できます。 以下に、「DALL-E2」 および「DALL-E3」の画像に基づいて生成された動画の例を示します。

動画は情報源を参照

7-2. 動画の前後方向への拡張

動画を前後方向に拡張することもできます。次に示す4つの動画は、動画のセグメントから開始して時間を逆方向に拡張したものです。それぞれ他の動画と異なって始まりますが、すべて同じ結末につながります。

動画は情報源を参照

7-3. 動画の接続

2つの入力動画間を補間し、まったく異なる主題やシーン構成を持つ動画間にシームレスなトランジションを作成することもできます。次の例では、中央の動画が左右の対応する動画の間を補間します。

動画は情報源を参照

7-4. 画像生成

画像を生成することもできます。 これを行うには、ガウスノイズのパッチを1フレームの時間範囲で空間グリッドに配置します。このモデルは、最大 2048x2048 の解像度まで、さまざまなサイズの画像を生成できます。

7-4. シミュレーション

動画モデルは大規模に学習すると、多くの興味深い創発的な機能を示すことがわかりました。物理世界から人、動物、環境の一部の側面をシミュレートできます。これらの特性は、3D、オブジェクトなどに対する明示的な誘導バイアスなしで出現します。これらは純粋にスケールの現象です。

・3Dの一貫性
 Sora はダイナミックなカメラモーションを含む動画を生成できます。 カメラが移動したり回転したりすると、人物やシーンの要素が 3 次元空間内を一貫して移動します。

動画は情報源を参照

・長距離の整合性とオブジェクトの永続性
動画生成にとっての重要な課題は、長い動画をサンプリングする際に時間的一貫性を維持することです。「Sora」は、常にではありませんが、多くの場合、短距離と長距離の両方の依存関係を効果的にモデル化できることがわかりました。たとえば、人、動物、オブジェクトが遮られたり、フレームから外れたりした場合でも、それらを保持できます。同様に、単一のサンプル内で同じキャラクターの複数のショットを生成し、動画全体でその外観を維持できます。

動画は情報源を参照

・世界との交流
「Sora」は、世界の状態に影響を与えるアクションを簡単な方法でシミュレートできることがあります。 たとえば、画家がキャンバスに沿って新しいストロークを残し、それが時間の経過とともに持続したり、男性がハンバーガーを食べて噛み跡を残したりすることができます。

動画は情報源を参照

・デジタル世界をシミュレート
「Sora」は人工的なプロセスをシミュレートすることもできます。一例としてビデオゲームがあります。基本ポリシーでMinecraftのプレイヤーを制御しながら、同時に世界とそのダイナミクスを高忠実度でレンダリングすることができます。これらの機能は、「Minecraft」について言及するキャプションを「Sora」に促すことでZero-Shotで引き出すことができます。

動画は情報源を参照

これらの機能は、動画モデルの継続的なスケーリングが、物理世界とデジタル世界、その中に住む物体、動物、人々の高機能シミュレータの開発に向けた有望な道であることを示唆しています。

8. ディスカッション

現在、「Sora」にはシミュレータとして多くの制限があります。 たとえば、ガラスの粉砕など、多くの基本的な相互作用の物理学を正確にモデル化していません。 食べ物を食べるなどの他のインタラクションでは、オブジェクトの状態に常に正しい変化が生じるとは限りません。ランディングページでは、モデルのその他の一般的な故障モード (長期間のサンプルで発生する不整合やオブジェクトの自然発生など) を列挙します。

OpenAIでは、今日の「Sora」の機能が、動画モデルの継続的なスケーリングが、物理世界とデジタル世界、およびその中に住む物体、動物、人々の有能なシミュレーターの開発に向けた有望な道であることを示していると信じています。

関連



この記事が気に入ったらサポートをしてみませんか?