Midjourneyの同一人物作成・一貫性対応新機能「キャラクター・リファレンス（Character Reference）」をプロンプト付きで解説

2024年3月12日 18:28

日本時間3月12日、Midjourneyの新機能について公式発表がありました。

こちら簡潔にいうと、Midjourneyが一貫性あるキャラクター機能をリリース、一貫性のある顔、髪型、服装のイメージを生成可能にという内容(くぼみ、そばかす、Tシャツのロゴの正確にコピーは不可らしい)

これまだ今朝ブクマしてから触れていない、、

Midjourneyが触れる環境の方は是非お試しを～ https://t.co/nfcI7OIASo
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) March 12, 2024

とうとう出たのか、というのが初見の感想でした。

画像生成AIにおいて、キャラクター（人物なら人物）の一貫性保持問題はかねてより気になる点であり、問題視されていた点でもあります。

今回発表あった機能ですが、ざっくりわかりやすく概要的なところを説明すると

・Midjourneyの画像から作られたキャラクターを使うときに最適な機能
・プロンプトの後に--cref URLと入力し、キャラクターの画像へのURLを入力する。
・strength 100 (--cw 100)はデフォルトで、顔、髪、服を使用します。
・strength 0 (--cw 0)では、顔だけに焦点を当てます。
-cwを使うと、リファレンスの'strength'を100から0に変更できる
・このテクニックの精度には限界があり、くぼみ、そばかす、Tシャツのロゴを正確にコピーすることはできない

といったことが公式アナウンスの内容にありました。

もっとわかりやすくいうと

画像を参照して、その参照画像の一貫性を保った画像が生成できるよ

というのが、今回の新機能となります。

具体的なやり方としては

プロンプト --cref 画像URL

これが新機能「キャラクター・リファレンス（Character Reference）」の基本フォーマットになります。

ブロックとしては「プロンプト」「--cref」「画像URL」、3つのブロックで成り立っていることがわかるかと思います。

注意したい点としては、「プロンプト」と「--cref」の間、「--cref」の「画像URL」の間には半角スペースが必要です。

こういったものは実例ありきでしっかり理解できるものかと思うので、以下実例を。

例1）

まず、結果から。
↑左側の1枚が参照画像です（Midjourneyにて生成したものです）。
右側の4枚が、左の参照画像をもとに今回の新機能「キャラクター・リファレンス」で生成した画像です。

所感としては、背景が変わってしまっているのは気になるものの、思ったよりというか、なるほど確かに一貫性は保持されているようには感じました。

参照画像を生成したプロンプトは以下（アスペクト比は2：3です）

Animated illustration, she. The well-known illustrators are all amazed at the calculated angle of view and composition of the illustrations

この英語プロンプトは「アニメイラストレーション。彼女。計算し尽されたアングルと構図、名だたる著名なイラストレーターたちがこぞって舌を巻いて驚くほど。」という日本語から作ったものです（笑）

ついで言うと、”計算し尽されたアングルと構図”部分に関しては、アングルや構図が特に指示しない、決まっていない、といった場合に便利な、わりと万能プロンプトワードだと思います。

さて、手順としては、↑のプロンプトで生成した画像URLをコピーします。

そして、「--cref」コマンドを使ってプロンプトを組みます。

フォーマットとしては前述したように

プロンプト --cref 画像URL

です。

このとき、

--cw 0：顔のみを反映
--cw 100：キャラクター全体を反映

といった感じです（ざっくりですが）。

この例では全体を反映したいので、↓のようになります。

Animated illustration, she. The well-known illustrators are all amazed at the calculated angle of view and composition of the illustrations --cw 100 --ar 2:3 --cref 画像URL

※半角スペースの入れ忘れには注意しましょう
※アスペクト比は参照画像生成時同様に2：3にしています
※画像URLとは、参照画像の画像URLになります
※通常のプロンプトから画像生成同様に「/imagine」コマンドから生成します

例2）

こちらも先ほどの例1同様に、左側の1枚が参照画像、右側の4枚が、左の参照画像をもとに今回の新機能「キャラクター・リファレンス」で生成した画像です。

…ただ、少しモノクロ画像があるのが気になるので、再生成してみると

まあ良しといった出来かとは感じました。

ちなみに、参照画像のプロンプトですが、実は例1と同じプロンプトになります。

ただ、キャラクター・リファレンス用のプロンプトとしては「A girl」にしました。

A gril --cw 100 --ar 2:3 --cref 画像URL

というプロンプトになります。

「A girl」というプロンプトだけですが、ざっくり”参照画像と全く同じにして”という指示が「--cw 100」にあたるという意味合いです。

今回は機能を試すため、少しざっくりな形になりましたが、微調整的なところは、まだやり込む余地がありそうです。

「--cw 」の値ですが、高くするほど、参考画像の影響が大きくなる仕様だというのを考えると、単により詳細な画像が生成されるということです。

ただ、その分、背景も複雑になり、変化しやすくなるのかなと。

あとは現時点の生成アルゴリズムではキャラ（人）と背景をそれぞれ完全に独立して1枚画の中で生成することは難しく、互いに影響を与え合ってしまうところもあるかと思います。（参照画像と背景が変わってしまっている理由の1つ）

キャラクター・リファレンス（Character Reference）の活用例としては、やはり”オリジナルキャラの作成”かと思います。

漫画や小説の挿絵、ゲームなど、いろいろと活用は出来るのではないでしょうか。

Midjourneyの新機能「キャラクター・リファレンス」について、実例を用いて解説しました。

諸々踏まえて、実際に触って色々と試してみるといいでしょう。

今回のMidjourneyの新機能「キャラクター・リファレンス」のような機能が備わった画像生成AIが今後出てくるかもしれませんが、現状、総合的な面ではMidjourneyは優秀な画像生成AIであるとは思います。

ただ、現状でいうと、Midjourneyで一貫性保持・同一人物となる画像を生成し、それに見合ったシナリオを組んで動画化しようと考えた際、アニメーション系動画生成AIが一貫性の保持が出来ない点が非常にネックとはなっています。

その辺は以下記事にて執筆していますので、気になる方はこちらも合わせてご覧頂ければと思います。

この記事が気に入ったらサポートをしてみませんか？