見出し画像

動画生成AIを6か月間使ってわかったこと[13] 動画生成AIで自主映画制作は可能か? - Blog 2024/02/12

「動画生成AIで自主映画制作は可能か?」シリーズの第13回目です。


映画制作プロジェクトの概要(2024年1月に更新):

  • 生成AIが今後クリエイティブ業界に与える影響を検証する目的で実施

  • 最長2分20秒のビデオプロトタイプを制作する

  • ストーリー構築からビジュアルデザイン、映像制作(音楽を含む)まで全てのプロセスで生成AIを活用する

  • 生成AIを最大限に活用して「1人」で制作する

  • 生成AIポリシーを遵守する

画像生成AI Prompting 方針(2023年12月に更新):

  1. プロンプトに作家名や作品タイトルを入れない(映画監督の名前や映画タイトル、登場人物、俳優の名前等も同様)

  2. プロンプトに著名人の名前やブランド名などを入れない

  3. 他人の著作物を Describeしない

  4. 特定の歴史的、文化的に重要な作品に対する敬意を表し、その再現を控える(著作権の問題でなく作品がもつ文化的価値や影響を尊重するため)

  5. Nijiモデルの生成画像は自分の作品として公開しない

  6. 生成した画像は作品の素材として利用する

  7. 公開する場合はAIで生成したことを表記する




動画生成AIを6か月間使ってわかったこと

昨年の12月28日から作り始めた「Another Tokyo - GenAI Parallel universe」シリーズ、本日19本目のビデオを投稿しました。
以下、直近のvol.16 ~ 19 を掲載します。

Another Tokyo - GenAI Parallel universe

  • 企画: ChatGPT-4 / Copilot Pro / Gemini Advanced / Adobe Express

  • 画像生成:Midjourney V6 (alpha)

  • ビデオ生成:Runway Gen-2

  • 音楽生成:Suno AI

  • ビデオ編集:After Effects / 画像処理:Photoshop

  • データ管理:Adobe Bridge


Emmanuelle

水を中心とした様々な形態(雨、海、涙など)を通じて、人生の転換期に直面している女性の内面を描く。水の流れやその一滴一滴が、感情の流れや変化を象徴する。

  • vol.16 再生時間:30秒


Title Journey Through the Stars

日常の中の小さな冒険と癒しの瞬間を捉え、心の平穏をもたらす。小鳥たちの動きとその可愛らしさ、彼らが集うコーヒーカップは、生活の中でしばしば見過ごされがちな美しさとを思い出させてくれる。

  • vol.17 再生時間:24秒


Beyond the Azure Skies

「空を飛びたい」。夢と現実の間の繊細なバランスを探る。夢が私たちの内面の深い願望を反映し、現実世界における私たちの行動や感情に影響を与えることができるというメッセージ。

  • vol.18 再生時間:39秒


心は遥か彼方

1960年代の日本の高度成長期を背景にした人間ドラマ。大企業を率いる若き女性経営者と、彼女を取り巻く個性豊かなサブキャラクターたちの活気ある日常と、時には葛藤する心情を描く。

  • vol.19 再生時間:51秒

生成AI活用において「歴史の再現はしない」というポリシーを遵守するため、あくまで「日本の昭和時代をモチーフにした架空の世界観」を表現しています。

プロンプトに「1960年代の日本」を含むと高確率で「着物の女性」が生成されるため、「--no kimono」で除外し、Stylizeパラメータに小さな数値を設定して調整します。

Kinemacolor 1960s Japan. Scenes from Japanese home dramas of the 1960s. Career Woman in the Showa Era. --no kimono --ar 16:9 --style raw --s 50 --v 6

Midjourney Model V6 (alpha) による生成画像をPhotoshopで拡張

Midjourney Model V6 (alpha)で生成した画像をPhotoshopで拡張してイメージを決定します。この場合は、肩から下の部分をPhotoshopの生成塗りつぶしで拡張しています。
※シミュレーション目的で「白黒」のレイヤーも作成していますが、生成するビデオはカラーです。After Effectsによるビデオ編集のプロセスで白黒に変換します。

生成画像の下部をPhotoshopで拡張

生成画像をRunway Gen-2でビデオ生成しますが、ビデオの品質を低下させる画像内の要素は、Photoshopで全て除去しています。
※6回程度生成して意図したモーションにならない場合は捨てます(他の候補画像を試します)。

Runway Gen-2でビデオ生成

全てのシーンを生成できたら、After Effectsで完成させます。必要に応じて、トリミング処理やノイズなどのエフェクトを追加します。

After Effectsによる生成ビデオの編集

Another Tokyoシリーズも19本目となり、効率化のためのノウハウも蓄積され、画像生成の段階で「破綻なく動かす」ための工夫を実践することが可能になりました。
ただ、できることが増えてくると、仕上がりの要求度も上がっていきますので、時間短縮にはなりません。
1時間かかった作業が、効率化で30分になっても、より高いクオリティーを求めますので難易度が上がり、また1時間に戻ります。
生成AIの技術が進み、作業が効率化されても、この繰り返しが続くので「劇的に簡単になる」というのは(コンシューマー向けでは実現しても)プロ領域では難しいと思います。むしろ、複雑高度化がより進むはずです。


マルチモーダルLLMを活用したプロンプト考案

2月に入ってからの大きな変化は、LLM活用の高度化です。
今までも、ChatGPTを使ったプロンプト生成はワークフローに組み込まれていましたが、より高度な使い方に発展しています。

今月から、以下の3つのLLMサービスを活用中。
※今のところ、総合的に見てChatGPT (GPT-4)が最も優れており、使用頻度も高いですが、MicrosoftアプリやGoogleアプリとの密接な連携ワークの検証のために、Copilot ProとGemini Advancedを併用しています。

  • ChatGPT (GPT-4)

  • Copilot Pro (GPT-4)

  • Gemini Advanced (Ultra 1.0)
    ※Ultra 1.0で生成するには英語で実行する必要あり(2024年2月12日現在)

以下は、ChatGPT 4、Copilot Pro、Gemini Advancedによる画像生成の動画です。ChatGPT 4、Copilot ProはDALL·E 3、Gemini AdvancedはImagen 2による生成。

  • 再生時間:30秒

「南極大陸のペンギンのイメージを生成してください」というプロンプトを実行した生成結果です。
Midjourney Model V6 (alpha)を使っていますので、LLMで生成した画像は使用しませんが、プロンプトを考案する過程で視覚化のプロセスも組み込んでいます。

ChatGPT 4, Copilot Pro, Gemini Advanced による画像生成

プロンプトを考案するプロセスは、1つのラフイメージから始まることが多く、自分で描画したスケッチや撮影した写真、FireflyやMidjourneyなどで生成した画像をChatGPTにアップロードして、イメージの分析とプロンプトの生成を実行させます。

プロンプト開発の一例:

  1. ラフイメージをChatGPTに見せる(アップロードする)

  2. イメージのコンセプトが理解できていることを確認できたら、プロンプトの案を依頼する

  3. 生成されたプロンプトをFireflyやMidjourneyで実行する

  4. FireflyやMidjourneyで生成した画像をPhotoshopで加工して、意図したイメージに近づける

  5. 画像処理したイメージをChatGPTに見せる(アップロードする)

  6. 修正点や追加注文などをまとめて依頼する

このプロセスを何度も繰り返します。

GPT-4を活用したビジュアルイメージのプランニング
(Midjourneyで生成した画像の解析とプロンプトの改善)
GPT-4を活用したビジュアルイメージのプランニング
(Midjourneyで生成した画像の解析とプロンプトの改善)
GPT-4を活用したビジュアルイメージのプランニング
(Midjourneyで生成した画像の解析とプロンプトの改善)
GPT-4を活用したビジュアルイメージのプランニング
(Midjourneyで生成した画像の解析とプロンプトの改善)

こちらで用意したラフイメージをアップロードしたり、LLM内でラフイメージを生成させたり、生成画像をPhotoshopで加工してアップロードするなど、通常の共同作業と同様に、コミュニケーションを円滑に進めるためのやり取りを行います。

マルチモーダルLLMとのコラボレーションで、コンセプトイメージが出揃ったら、本格的に画像生成をスタートします。

Another Tokyoシリーズを短期間に量産できる理由は、LLM活用によって「自分の創造力の限界」を突破できたからです。
このワークフローが確立できていなかったら、作品化で疲弊し、似たようなものしか作りだせないマンネリ化に陥っていたでしょう。


Photoshopを活用した生成画像の拡張

画像生成も動画生成も「ガチャポン」であり、使い手のコントロールがほとんど効きません。生成してみないとわからないので、計画的な創作はかなり難しいと言えるでしょう。

昨年末から生成時の割り切りを明確にして「後処理」を重視しています。
できるだけ、生成のための試行錯誤を繰り返さないように進めます。

Photoshopで修正できるなら、不完全な生成結果でも出力します。手の修正や不要な要素の除去、トリミング、ポーズの変更など、既存の画像処理テクニックで可能なことは全て取り入れます。


以下は、写真集のプロトタイプづくりで生成したキャラクターです。

film still, Full body view, Maximal facial detail 18 year old Japanese girl who is a super cute fashion model. she has short pink hair in the Y2K fashion, party kei --no freckles, face gem stickers --ar 1:2 --style raw --s 150 --v 6

Midjourney Model V6 (alpha) による生成画像

不要な部分はPhotoshopで除去します。
逆に、新たな要素を追加生成することもあります(Photoshopの生成塗りつぶし、もしくは通常の画像合成)。

不自然な仕上がりは元画像の修正で対処する
背景のネオンを除去

キャラクターのバリエーションもPhotoshopで実行し、ChatGPT (GPT-4)にアップロード後、画像処理の方針を決めたり、生成し直す新しいプロンプトを考案します。

Photoshopの生成AIでバリエーションチェック

以下の(Photoshopによる)ビジュアルイメージは、リファレンスとなり複数の用途に使用されます。

  • Midjourney Model V6 (alpha) で再現するためのプロンプト開発

  • 人物・前景・背景のように要素分解して、Runway Gen-2によるビデオ生成とAfter Effectsによるエフェクトの役割分担を決める

生成画像をPhotoshopで画像処理してリファレンスにする


生成AIで「完成品」は作らない

生成AIで完成品を目指すと、当然ですが「生成AIの限界」に縛られてしまいます。自分が生成した画像を(生成AIサービスの中で)イメージ検索すると、酷似したものが大量に出てきます。この状況で、オリジナリティを主張すると将来トラブルに巻き込まれる可能性があります。

Midjourneyの中でイメージ検索した結果

世界中の人たちが同じようなプロンプトを使い、同じサービスで生成していることを意識しておく必要があります。

生成したキャラクターを完成品にするのではなく、そのキャラクターで何を表現するのか追求する過程で「既存のテクニックも生かす複合的な創作」を実践するのが良いのではないかと考えています。

現在、ビデオ生成のメインはRunway Gen-2ですが、最初の劇的な品質改善は昨年の7月22日です。この日から集中的にビデオ生成を開始しました。
初期は、動画生成AIでどこまで完成映像に近づけるか試行錯誤していましたが、後半は前述したとおり、既存の手法と組み合わせたハイブリッドな創作方法がベストプラクティスとなっています。

Runway Gen-2のMulti Motion Brush
Another Tokyoの18本目「Beyond the Azure Skies」はこの機能を駆使している

現在の環境:

  • 企画: ChatGPT-4 / Copilot Pro / Gemini Advanced

  • ストーリーボード・コンセプトシート:Adobe Express

  • 画像生成:実写表現はMidjourney / イラスト表現はAdobe Firefly

  • ビデオ生成:Runway Gen-2 / Pikaはまだ検証中

  • 音楽生成:Suno AI

  • ビデオ編集:After Effects / 画像処理:Photoshop

  • データ管理:Adobe Bridge



22日(木)は、CP+でお話します。

  • 14:35-15:15 :AI×クリエイティブの最前線を徹底解剖
    セミナーステージ・会場からLIVE配信

CP+2024

29日(木)Adobe公式 CC道場で「動画生成AIについて」初心者向けに詳しく解説します。
ライブ配信は夜8時からです。


動画生成AIの可能性」マガジンをフォローしておくと、最近記事・最新情報の通知が届きます。


更新日:2024年2月12日(月)/公開日:2024年2月12日(月)

この記事が気に入ったらサポートをしてみませんか?