見出し画像

Midjourney V6(alpha)のための新しいプロンプトエンジニアリング探求の準備 - Blog 2023/12/21

V6 (alpha) と V6(full release)をわける

Midjourney Model V6 (alpha) のAesthetic systemを探求する準備を開始しました。アルファバージョンの試行錯誤は、完全版(full release)で通用するノウハウにならない可能性がありますので、V6 (alpha) と V6(full release)を異なるバージョンとして扱っていきたいと思います。

以下の記事の続きです。



V6 (alpha) のAesthetic system

V5との比較は前回の「Midjourney V6とV5はまったく別のもの! 大半のプロンプトは共有できない 」をご覧ください。
今回は、V6 (alpha) の探求を実施します。
※V6 (alpha) と V6(full release)は別けます。V6 (alpha) は調整中のバージョンなので、アルファバージョンのノウハウが V6(full release)で通用しない可能性があるからです。

V5のプロンプト:

angry, film still, super detail, 2020s, a photorealistic Cool 70 year old man , maximal facial detail, shot on fujifilm XT4 --ar 16:9 --v 6.0

V6 (alpha) の生成画像

V6 (alpha) では、高画質表現を狙った「photorealisticや4K、8K、フィルム名やレンズ等」のプロンプトは不要になりましたので、V5のプロンプトを参考にする場合、全て省きます。

Style and prompting for V6

  • Prompting with V6 is significantly different than V5. You will need to 'relearn' how to prompt.

  • V6 is MUCH more sensitive to your prompt. Avoid 'junk' like "award winning, photorealistic, 4k, 8k"


V6 (alpha) では不要なワード、フレーズ:

  1. super detail

  2. photorealistic

  3. maximal facial detail

  4. fujifilm XT4

V6 (alpha) 用のプロンプト:

こんなに短くなります…

angry, film still, 2020s, Cool 70 year old man --ar 16:9 --v 6.0

V6 (alpha) の生成画像

以下は、最小限のプロンプトです。
これだと、空間周波数が高すぎるので調整する必要があります。

Cool 70 year old man --ar 16:9 --v 6.0

V6 (alpha) の生成画像

今回は、V5との比較はしませんが、前回の復習として、どれだけ異なるのか確認しておきます。同じプロンプトをV5.2で生成すると以下のようになります。

V5.2 の生成画像

V5.2の方が、プロンプトで意図したイメージ(クールな70歳の男性)になっています。
V6 (alpha) は、単なる「写真」ですね…
プロンプトの共有は無理だということがわかると思います。


Style and prompting for V6

  • Be explicit about what you want. It may be less vibey but if you are explicit it's now MUCH better at understanding you.

  • If you want something more photographic / less opinionated / more literal you should probably default to using --style raw


V6 (alpha) では、より明確にイメージを伝えるように、と記載されていますので、「映画に登場するかっこいい70歳の男性」にしてみます。
まずは、テストプロンプト用に「film still」を追加。

film still, Cool 70 year old man --ar 16:9 --v 6.0

V6 (alpha) の生成画像

多少「クールなおじいさん」に近づきましたが、「older man with dark sunglasses」のように具体的に書かないとダメそうですね。

それでは、V6 (alpha) で「かっこいい70歳の男性」を表現するプロンプトを書いてみます。「--style raw」を付加して、Aesthetic systemを軽減させます(プロンプトに対する忠実度を高めます)。

film still, an older man with dark sunglasses and a beard, black background, light silver and silver, steelpunk, matte photo, bold fashion photography, city portraits, norwegian nature --ar 16:9 --style raw --v 6.0

V6 (alpha) の生成画像

かなり良い感じになりました。
V5.2だと、超リアルな3DCGキャラクターのようになりますが、V6はほんとに写真ですね…

V6 (alpha) の生成画像

別のパターンです。

film still, man with white beard standing on black background, in the style of chromepunk, solarizing master, wavy, matte photo --ar 16:9 --style raw --v 6.0

V6 (alpha) の生成画像
V6 (alpha) の生成画像

V6 (alpha) の表現力を引き出すことができれば、画像生成AIでは最先端のクリエイティビティと言えるかもしれません(今のところ…)。
特に、アート系の表現で実力を発揮しそうです。

男性の生成は難易度が低いのですが、若い女性がかなり難しい。
V5では、過度に美化されていたのですが、V6 (alpha) は写実的でNatural-lookです。

film still, blizzard, a city of silver in a snowy country, center view extreme close-up, super cute 24 year old Japanese young woman, beautiful long brown hair, street style realism --ar 1:1 --s 175 --style raw --no freckles --v 6.0

V6 (alpha) の生成画像

V5.2で生成すると、以下のようになります。

V5.2 の生成画像

V6 (alpha) は、V5とは異なり写実的でNatural-look

V6 (alpha) の生成画像

同じプロンプトをベースにして男性に変更。

Front of Pose Collection, full body center view profile photography, film still, blizzard, a city of silver in a snowy country, super cool 24 year old Japanese young man, cool long brown hair, street style realism --ar 1:1 --style raw --no freckles --v 6.0

V6 (alpha) の生成画像

余談:

試しに、V6 (alpha) で生成した高品質な画像をRunway Gen-2でビデオ生成してみましたが、やはりビデオの品質も向上しますね。
ビデオ生成については「動画生成AIの可能性」でまとめています。

  • 再生時間:20秒


V5のプロンプトはV6 (alpha)で流用しにくい

V5で肌のディテールを表現する場合、maximal facial detail のような強めのフレーズを使いますが、このプロンプトをV6 (alpha) で流用すると効きすぎてしまいます。

film still, close-up, super detail, maximal facial detail, 18 year old Japanese girl who is a super cute fashion model, she has short brown hair in the Y2K fashion, Y2K Aesthetic Worldview, party kei --ar 4:3 --v 6.0

V5.2 の生成画像

V6 (alpha) では、大幅に品質が向上しているため、同じプロンプトで生成すると以下のようになります。

V6 (alpha) の生成画像

もし、V5のプロンプトを再利用したいなら、不要なワードやフレーズを削除するか、「--no freckles」等のネガティブプロンプトを指定する必要があります。

V6 (alpha) の生成画像(「--no freckles」を追加)
V6 (alpha) の生成画像(「--no freckles」を追加)


Raw TestでV6 (alpha) を探る

流行語のRaw Testです。
Raw Testでは、同じプロンプトで「3回以上」生成して傾向を比較します。
V5.2では大半がマンガスタイルのイメージが生成されます(実写イメージは少ない)が、V6 (alpha) は実写イメージになります(マンガスタイルは少ない)。

Raw Test [ 1 ]

party kei --style raw --v 5.2

V5.2 の生成画像

party kei --style raw --v 6.0

V6 (alpha) の生成画像

V6 (alpha) では、イラスト表現より写真表現が多く生成されます。

V5.2 とV6 (alpha) の傾向の違い


Raw Test [ 2 ]

toycore --style raw --v 5.2

V5.2 の生成画像

toycore --style raw --v 6.0

V6 (alpha) の生成画像


Raw Test [ 3 ]

写真表現の比較になると、V6 (alpha) はRaw過ぎて、扱いが難しくなっています。V5.2では制御しやすかったので、この領域の再学習は時間がかかりそうです。

androgynous --style raw --v 5.2

V5.2 の生成画像

androgynous --style raw --v 6.0

V6 (alpha) の生成画像


Aesthetic TestでV6 (alpha) を探る

流行語のAesthetic Testです。
Aesthetic Testは、前回もやっていますので、確認のみ。
MidjourneyはデフォルトでAesthetic systemが効いていますので、単語だけでテストしていきます。

Aesthetic Test [ 1 ]

party kei --v 5.2

V5.2 の生成画像

party kei --v 6.0

V6 (alpha) の生成画像


Aesthetic Test [ 2 ]

toycore --v 5.2

V5.2 の生成画像

toycore --v 6.0

V6 (alpha) の生成画像


Aesthetic Test [ 3 ]

androgynous --v 5.2

V5.2 の生成画像

androgynous --v 6.0

V6 (alpha) の生成画像

前回確認したとおり、V6 (alpha)では(イラスト表現より)写真表現が主となり、創造性は低下します。
※V6 (alpha) の創造性は、--style raw でAesthetic systemを軽減し、--s 10 ~ 1000 で調整。


来週、V6の最初のアップデートが実施されるようです

生成画像の一貫性など大きな変更が予想されるので、今のV6では、頑張らない方がいいかもしれませんね…

中断して、アップデート待ちます



Midjourney高精細画像の研究」マガジンをフォローしておくと、最近記事・最新情報の通知が届きます。


更新日:2023年12月26日(火)/公開日:2023年12月26日(火)

この記事が気に入ったらサポートをしてみませんか?