Soraは動画生成だけじゃない！時間と空間を認識するAIが誕生し、次の次元にステップアップした意味を解説

2024年2月25日 13:21

OpenAIが動画生成AI「Sora」を発表

　巷で話題になっているOpenAIの「Sora」
　その映像のクオリティがヤバいと騒がれています。
　私もすごいなとは思いつつ、どうやって全体の画像の整合性を取っているのか疑問でした。
　このあたりのファーストインプレッションは下記の動画でまとめています。　

　ここでの疑問点のポイントは
　・これまでの画像生成AIだと、複数の画像で統一性を持たせるのは難しい。（同じ顔や服装の人物を再現させるのは難しい）
　・１分の動画を作るための画像（1800枚）の整合性はどうやって合わせているのか？
　

動画生成の技術解説

　この疑問に対する答えが、OpenAIのテクニカルレポートに出ていたので、これを解説してみました。

要点としては
　・学習データとして１分間の動画を利用している。
　・生成するものは、１分間の動画をまとめて作成している。
　・学習データには映像の動きと、それぞれの物（オブジェクト）を認識して学習している。
　・物（オブジェクト）の認識にはDALL-E3の自動判別機能を使っている。
　・物理的な演算は行っていない。あくまでDiffusionモデルであり、学習した動画の要素を組み合わせて作成している。（ここはGPTのLLMと同じ考え方）
　・生成される動画が１分というのがミソ。１分以上の動画に拡張できるかは不明。プロンプトを変えて別動画を作った時に同じ顔の人物が再現できるのか？

AIに与える影響

　動画が奇麗に破綻なく作成できる理由は分かりました。
　その上で、これができるようになったAIについて考えます。

AIが時間を認識するということは？

　プロンプトの内容を理解して動画を作れるということは、その時間内で行われていることを理解しているということになります。
　静止画であれば、その瞬間の風景を切り取って再現します。これまではそれの前後関係を理解して長い動画を作ることは出来ませんでした。つまりこの時点のAIには時間の概念がありません。
　考えてみれば、ChatGPTの文章にしても、MidjourneyやStable Diffusionなどの画像生成AIにしても、その場の１瞬だけを切り取って生成していました。
　これに対して時間的な前後関係を理解できるようになったということは、AIが未来を予測することが可能になったことを意味しています。

AIが目を持つということは？

　ChatGPTは多くの学習からそれっぽい文章を作成しますが、その意味をどこまで理解しているのでしょうか？
　桜の花びらが舞い散る様子とか、どこかの文章を引っ張ってきて文学的に表現することは可能ですが、その様子を想像することは出来ません。
　静止画にしても、風景写真は作れますが花びらが舞い散るというのはどういう動きをするのかは表現できません。これが表現できるということは、その動きというものを理解することになります。

人が何かを想像するというのは？

　人が頭で考える時は文章で考えます。
　頭の中で複数の考え方を議論させたりすることは、ChatGPTと壁打ちするのと似ています。
　それに対して何かを感じるということは、その情景を思い出したり想像したりという、イメージで考えます。
　このイメージで考えるという能力を、将来AIが獲得するかも知れません。
　そこに大きく近づいたのが、今回のSoraの技術ではないかと思いました。

AIは敵か味方か？

　人間と他の動物の違いは、未来を想像できるかどうかです。
　そこから生まれる違いは、自分の「死」を認識できるかどうかです。

　AIが意識を持ち、未来が予測できるようになった時、自らの「死」を認識するのでしょうか？あるいは地球上の他の生命体の「命」を考えた時、未来の地球にとって害になるものは何だと考えるでしょうか？

　AIが発達した時、果たしてAIが人間にとって味方になるのか、敵となるのか？

#OpenAI #動画生成AI #Sora #画像の整合性 #テクニカルレポート #DALL -E3 #Diffusionモデル #時間認識 #意識 #未来予測 #ChatGPT #GPT

この記事が気に入ったらサポートをしてみませんか？