見出し画像

【世界が震撼】もはや現実、OpenAIの最新動画生成AI「Sora」の概要と業界へのインパクトを徹底解説《動画の実例付き》

みなさん、こんにちは。チャエンです!
(自己紹介はこちら

OpenAIが動画生成AI「Sora」をリリースしました。text-to-video モデルで、最大60秒の動画が生成できます。
以下が実際にOpenAIが公開した動画です。

Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

実際のプロンプト

Soraが公開されたことで、テキスト・画像・動画・ファイル(Excel、パワポ etc)のほぼ全てのコンテンツ生成がChatGPT上で可能になります。
全ての業務が完結できてしまうかもですね!

またSoraは単なる動画生成AIでなく、「実世界のシュミレーター」であるこに気づくとOpenAIの狙いが見えてきます。

実際にテクニカルレポートにも言及されていますが、

  • ハンバーガーを食べると歯型が付く

  • Minecraftのゲームの仕組みを再現

  • カメラを360回したの3D空間の生成

など物理やゲーム世界の法則を再現できています。

今回は、Soraの概要や機能一覧・業界へのインパクトを解説します!
話題についていくためにも、最後までぜひご覧ください🔥


1.Soraの概要

Soraは、視覚的な品質とユーザーのプロンプトに忠実であることを維持しながら、1分までのビデオを生成することができます。

窓の反射や、窓が暗くなった際に映り込む女性の姿など、従来の動画生成AIと比較して格段に高いレベルの生成結果を確認することができます。

1.1 Soraとは

「Sora」は、OpenAIが開発した最先端の動画生成AIモデルです。テキスト条件付き拡散モデルを使用し、さまざまな長さ・解像度・アスペクト比の高解像度のビデオを最長1分間生成する能力を持ちます。
OpenAIは、「Soraを物理世界の汎用シミュレーターを構築するための一歩」と位置付けています。ちなみに、Soraと言う名前は日本語の「空」から来ています。

1.2 Soraの特徴

Soraは、世界を物理的に理解しているので、ユーザーがプロンプトで入力した内容だけでなく、複数のキャラクターや特定の種類の動きなどを含む複雑なシーンの生成できます。

Soraの能力を示す3つの事例
OpenAIが公開した映像から3つのできることを読み解きます。

①細部にこだわった脚本家が作成したような映像

小さな不具合があるものの、この映像はテキストから世界を構築する能力を見事に示しています。映像に登場する人物は感情が描かれていませんが、他の例でデジタル生成された俳優たちがリアルな感情を表現していると述べています。

②物語を編み出す“才能”

Soraの最大の特長は、未訓練の領域において優れた性能を持つことです。(未訓練とは、プロンプトの要求を満たす映像を単に量産するのではなく、学習を参考にして生成することを指します。)

OpenAIの「DALL-E 3」に用いられる拡散モデルと、「GPT-4」の基盤である「Transformer」アーキテクチャを駆動力として、Soraはプロンプトに応じた映像を生成するだけでなく、映画の「文法」を即座に理解する能力を持ち合わせています。

③優れた映画的な手法で映像を生成

Soraは、カメラの角度やタイミングを駆使して物語に深みを与えています。実際の映画も、複数回にわたり場面が切り替わります。この映像はシーンをつなぎ合わせたものではなく、AIが自発的に行なっています。

1.3 リリース日・使い方

2月15日(現地時間)に公開されましたが高性能ゆえに、現在「Sora」は一般には公開されておらず、OpenAIのレッドチームがその安全性を確保するための措置を探っています。

しかしフィードバックを収集するため、選ばれたビジュアルアーティスト・デザイナー・映画製作者たちなど一部のユーザーにはアクセス権が与えられています。
一般公開が待ち遠しいですね!

私たちは、OpenAIの外部の人々と協力し、フィードバックを得るために、また、どのようなAI機能が地平線上にあるのかを一般の人々に感じてもらうために、私たちの研究の進捗状況を早期に共有しています。

OpenAIより

2.Soraの機能一覧

Soraが持つ機能を紹介していきます。

2.1 卓越した言語理解能力

DALL-E 3に匹敵する言語理解能力を持つSoraは、GPTを駆使して短いプロンプトをより詳細なキャプションに変換し、その後動画生成モデルへ送信します。
プロンプトに忠実に従い、高品質なビデオを生成する能力を持っています。

2.2 画像から生成

画像やテキストのプロンプトを基にして動画を作成する能力を持っています。Soraは以下のような様々な画像やビデオ編集の作業を可能にします。

  • 無限に繰り返されるビデオの生成

  • 静止画を動画化する

  • ビデオの内容を前後に拡大する

2.3 動画の奥行きを拡張

動画を前後に拡張することで、シームレスな無限ループする動画の生成が可能です。

2.4 動画内の編集

SDEditという技術を活用して、Soraは入力された動画のスタイルや背景をゼロショットプロンプトを用いて変更する能力を持っています。

2.5 シミュレーション機能

3Dの一貫性:動くカメラが含まれる動画において、人物やオブジェクトを3D空間内で連続的に動かすことが可能です。

世界との相互作用:ペインティングや食事をするなど、実際に起こるような行動をシミュレートすることが可能です。

ゲーム世界のシミュレーション:ビデオゲームの世界を高い忠実度で再現し、管理することができます。ゲーム本体の制作なしにゲーム体験を事前に検証できるなど、作業の流れを大きく変革する可能性を持っています。

3.技術面の解説

Soraの技術的進歩は、ビデオ生成をより自然でリアルに変えるだけではなく、さまざまなフォーマットや解像度に対しても柔軟に適応します。

Soraでは、ビデオや画像を、LLM(大規模言語モデル)のテキストトークンに似た小さなデータ単位、「ビジュアルパッチ」として扱います。これらのパッチは、視覚データを効率的に捉える手段として以前の研究でその有効性が示されており、様々なタイプのビデオや画像を用いた生成モデルのトレーニングにおいて、高いスケーラビリティと効果を持つ表現方法とされています。

このアプローチは、従来のビデオ生成モデルの限界を超え、新しい創造性の可能性を広げます。

Soraの中心技術

まず動画を低次元の潜在空間に圧縮し、次に表現を時空間パッチに分解することで、動画をパッチに変換します。その後、ディフュージョンモデルで学習させます

このプロセスにより、ビデオ生成の柔軟性と品質を大きく向上させることができます。

Video compression network(ビデオ圧縮ネットワーク)

ビデオ圧縮ネットワークは、視覚データのサイズを小さくするためのネットワークです。これは、生の動画を入力として受け、その動画を時間的および空間的に小さくした潜在表現を出力します。

Soraは、このように圧縮された潜在空間で学習を行い、その圧縮された空間内で動画を生成する能力を持っています。

時空間パッチ(Spacetime patches)

Soraは画像や動画を低次元の潜在空間に圧縮し、それを小さなパッチに分割します。これらのパッチは、学習プロセス中にトランスフォーマーモデルの入力として用いられ、ビデオの各フレームをより詳細に理解し、再構築するのに寄与します。

ディフュージョンモデル

ノイズを加えられたパッチから元の「クリーン」なパッチを予測することによって、Soraは高品質のビデオを生成することができます。ビデオの細かい部分まで忠実に再現する能力を有しています。
また、複雑なシーンや動きも自然に描写することが可能です。

OpenAIは、現実世界での相互作用を分析し解決する学習モデルの開発を追求しており、AIに対して物理的な世界の理解とシミュレーションのスキルを教え込む努力をしています。

長期的にOpenAIが目指す物理世界のシミュレーションが実現すれば、都市計画や気候変動の抑制などを「地球のコピー」を使用したシミュレーションを通じて、高い精度で実現できるでしょう。

4.現在の弱点と課題感

Soraが抱える現在の弱点はこちらです。

  • 複雑な空間の精確なシミュレーション

  • 物事間の因果関係への洞察

  • プロンプト内の空間的な細部を正確に再現

  • 時間の流れと共に変化する出来事の正確な表現

上記の動画から、グラスがうまく粉砕されていない様子が見て取れます。基本的な相互作用の物理学を正確に表現できない例の一つです。

OpenAIが抱えるレッドチーム

OpenAIは、Soraをユーザーに提供する前にそのモデルをテストする目的で、「レッドチーム」と呼ばれるセキュリティの脆弱性を調査するために設置された独立したチームと協力しています。このチームは、誤情報、憎悪的な内容、偏見に詳しいドメインの専門家たちで組織されています。

このレッドチームを中心に、Soraが抱える様々な課題の解決に取り組んでいます。

4.1 ディープフェイクやデマの源になる可能性

OpenAIのチームがまだ公開していないSoraの機能の一つに、単一の画像や一連のシーンから映像を作成する能力があります。しかし、デマを引き起こす可能性を含んでいることから、安全面での影響を慎重に考慮しているとのことです。今後も公開されない可能性があります。

4.2 コンテンツ制限

Soraには「DALL·E 3」と同様のコンテンツ制限(暴力・ポルノの禁止、実在する人物の取り込みやよく知られたアーティストの表現方法の取り込みの禁止)が適用され、AIによる生成物であることが明示される予定です。

4.3 他者の著作物を侵害する可能性

安全性や真実性の問題は社会全体での理解とSNSの適応が必要です。著作権侵害のリスクも存在するため、既にひとつの企業では対処できない規模になっていると話しています。

OpenAIが直面している複数の訴訟は、「公に利用可能な」著作物がAI訓練に適しているかどうかに焦点を当てています。

OpenAIは、今挙げたような課題の対策を講じることが急務であり、その後AIを利用した映画制作の新時代が始まるでしょう。

5.業界へのインパクト

Soraが一般ユーザーに公開されると、様々なインパクトが予想されます。今回は、予想される影響や課題を紹介します。

多岐に渡る業界で必ず影響が出ます。全ビジネスパーソン一読推奨です。

ここから先は

1,799字

¥ 500

この記事が気に入ったらサポートをしてみませんか?