ByteDanceより一貫性のある動画生成「StoryDiffusion」が発表される
ByteDanceと南海大学のインターンによる「StoryDiffusion」が公開されました。 Unetを使ってストーリー的につじつまの合ったセルフアテンションを実現しています。 コードはまだ公開されていないようです
[5/4追記] コードとデモが公開されました!
Gradio公式Xで大きく紹介されています
以下公式リリースより
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
(ストーリー拡散 長尺画像・動画生成のための一貫した自己アテンション)
Yupeng Zhou [1]* Daquan Zhou[2]† Mingming Cheng[1] Jiashi Feng[2] Qibin Hou
VCIP, CS, Nankai University 2ByteDance Inc.
ByteDance Inc.のインターン
コミックの生成
StoryDiffusionは、一貫した自己アテンションにより、印象的なコミックを作成することができます。
映像制作実績
StoryDiffusionが生成した一貫性のある画像や、ユーザーが入力した画像を条件として、画像セマンティックモーションパーディクターにより、高品質な動画を生成することができます。
ビデオギャラリー
・一貫した自己アテンションにより生成された画像
・SORAの条件画像を使用ユーザ入力条件画像の利用
漫画キャラクター生成
StoryDiffusionは、驚くほど一貫性のあるアニメキャラクター画像を作成することもできています
複数キャラクター生成
StoryDiffusionは、複数のキャラクターのIDを同時に保持し、一貫性のある画像を生成することも可能なようです
その他のコミック生成例
StoryDiffusionは、印象的なコミックを作成することができます。今後、より多くのコミックを生成して公開するそうです。
"女の子とリス"
アニメっぽい画風も得意そうですね。
手法・セルフアテンションの一致
モーション予測の構造
肝心の論文本体とGitHubについてはまだ公開されていませんが、このタイミングでの公開はSIGGRAPHなどの国際会議等での採択の可能性がありますね。
続報があればこちらの記事も更新していきたいと思います。
追記:GitHubとHugging Face Spacesにデモが公開されました
公式🤗 StoryDiffusionのGradioデモ
[重要] パーソナライゼーションステップ:
[1️] キャラクターのテキスト説明を入力します。Ref-Imageを追加する場合は、トリガーワード: imgでカスタマイズしたいクラスワードに続くことを確認します。
[2️] プロンプトの配列を入力します。各行は生成された1つの画像に対応します。
[3️] お好みのスタイルテンプレートを選択します。
[4️] [送信] ボタンをクリックしてカスタマイズを開始します。
この記事が気に入ったらサポートをしてみませんか?