見出し画像

Midjourneyの上級テクニックで写真集のプロトタイプを作成する・第2回

Midjourneyを活用して写真集のプロトタイプを作成する検証レポートの第2回目です。ライブ配信しながら更新していく実況コンテンツです。

生成AIによるマガジンのプロトタイプ

検証レポートの概要

  • 写真集のプロトタイプを作成するプロセスを詳細にレポートします

  • 本コンテンツは検証レポートです。Midjourneyを習得するための学習コンテンツではありません

  • Midjourneyの基本的な使い方を知っている方を対象に書いています(もしくは過去のVlogを視聴していてMidjourneyの知識を獲得されている方)

  • 検証目的を兼ねているため、Midjourneyのテクニックを駆使します。基本的な操作や知識については解説しません(基本的なことは理解している前提で解説します)

  • Midjourney 5.2 で作業を進めます

  • 必要に応じて、ChatGPTを使います

生成AIによるマガジンのプロトタイプ

画像生成AI Prompting 方針(10月に更新):

  1. プロンプトに作家名や作品タイトルを入れない(映画監督の名前や映画タイトル、登場人物、俳優の名前等も同様)

  2. プロンプトに著名人の名前やブランド名などを入れない

  3. 他人の著作物を Describeしない

  4. Nijiモデルの生成画像は自分の作品として公開しない

  5. 生成した画像は作品の素材として利用する

  6. 公開する場合はAIで生成したことを表記する



インスピレーション・プロセス

「Midjourneyの上級テクニックで写真集のプロトタイプを作成する」シリーズの第2回目です。第1回目は想像以上にエクストリームな内容になってしまったので、非公開にしました。今回は注意します。

前回、生成したラフイメージ。
まだコンセプトが決まっていないため、ランダム生成を繰り返して、イメージを広げたいものを中心にグルーピングしました。

前回の生成画像

今回は(一旦リセットして)もう一度インスピレーション・プロセスから始めます。漠然としたイメージをスケッチブックに描くように、ビジュアルのアイデアをカタチにしながら(画像生成しながら)漫然と進めていきます。

前回同様に、Y2Kファッションを核にしたいので、まず「dance fashion」というワードで探っていきます。
縦横比「--ar 16:9」とプロンプトの忠実度を高くするために「--style raw」をプロンプトの末尾に付けます。基本的に、このパラメーターをデフォルトにして進めていきます。

dance fashion --ar 16:9 --style raw

生成結果

曖昧なプロンプトは、ランダムな生成になりますので、アイデアを出すプロセスでは有効です。新たなヒントが得られるからです。
映画のシーンのような画風にしてみます。「film still」を冒頭に追加。

film still, dance fashion --ar 16:9 --style raw

生成結果

Midjourneyらしいbiasです。
ファッションカテゴリーの「hip-hop」を追加してみます。

film still, hip-hop dance fashion --ar 16:9 --style raw

生成結果

イメージどおりの画像が生成されたので、このプロセスでは「可もなく不可もなし」という感じです。
ここでスタイルの核となる「Y2K aesthetics」を追加します。
同時に、具体的な要素としてバギーパンツ「baggy pants」と柄スタイル「paisley pattern」も追加してみます。

film still, Y2K aesthetics hip-hop dance fashion, baggy pants, paisley pattern --ar 16:9 --style raw

生成結果

バギーパンツと柄の影響力が強そうですね(AIは、バギーパンツを見せるために全身、もしくは下半身を生成しています)。
背景を無地にするために「Pure white background」を追加します。

Pure white background, film still, Y2K aesthetics hip-hop dance fashion, baggy pants, paisley pattern --ar 16:9 --style raw

生成結果

バギーパンツと柄の影響力が強い!
これだけ強いと、クローズアップを指定しても効かないのでは…
プロンプトを解析して確認しておきます。
「Shorten Command」を使用します。詳細は以下のVlogで解説しています。

Midjourneyにとって重要なトークンは、やはり柄スタイル「paisley pattern」バギーパンツ「baggy pants」ですね。生成された画像を見れば一目瞭然。

Shorten Commandでプロンプトを解析

試しに、重要なトークンだけで構成したプロンプトを使ってみます。

white background, still, Y2, hop dance, pants, paisley --ar 16:9 --style raw

生成結果

元のプロンプトと同じ生成画像になります。
※解析が目的なので、このプロンプトは使用しません。


モデルの基本ベース

モデルの基本ベースを決めたいので、キャラクター要素を追加します。
18 years old Japanese young woman Mariko」には、年齢と人種、性別、名前(ここではMariko biasを採用)が含まれています。
※Midjourneyは特定の名前にバイアスがあり、その特性を利用してキャラクターの統一感を保持しています。
全身像を確認するため、縦横比を「--ar 1:2」に変更。

Pure white background, film still, 18 years old Japanese young woman Mariko, Y2K aesthetics hip-hop dance fashion, baggy pants, paisley pattern --ar 1:2 --style raw

生成結果/生成画像を水平方向に再配置

やはり、クローズアップが効かないので「Mariko has beautiful eyes」を冒頭に追加して、擬似的なクローズアップで生成します(目の表現が強いとクローズアップになります)。
カスタマイズしやすいように、柄スタイルとバギーパンツをまとめて「paisley pattern baggy pants」とします。

Mariko has beautiful eyes, Pure white background, film still, 18 years old Japanese young woman Mariko, Y2K aesthetics hip-hop dance fashion, paisley pattern baggy pants --ar 16:9 --style raw

生成結果

縦横比を「-ar 3:4」に変更して、生成されるイメージの内容を検証します。
Mariko biasが効いているので、似たようなモデルになっていますが、ランダムな生成になっているので、現在のプロンプトを解析しておく必要がありそうです。

生成結果/生成画像を水平方向に再配置

「Shorten Command」の結果です。
目の表現が強すぎるようですね(「eyes」が1.00あります)。クローズアップになるくらい…強いということが分かります。

Shorten Commandでプロンプトを解析

試しに、末尾の「--style raw」を削除して、Aesthetics Systemを効かせてみましょう(これがMidjourneyのデフォルトです)。
プロンプトから離れますが、よりクリエイティブに表現されます。

Midjourneyのデフォルト(Aesthetics System)で生成

Midjourneyはデフォルト(Aesthetics System)で生成すれば、誰がやっても、単語一つでも、美しくクリエイティブな画像が生成されます。
今回は忠実度を上げたいので「--style raw」を付けていますが、プロンプトエンジニアリングの難易度も上がるので試行錯誤の覚悟が必要です。

ここまでの仮説検証の結果(プロンプト)を記録しておきましょう。クローズアップの指定がまったく効かないくらい「paisley pattern baggy pants」が強いということが分かりました。
目の表現を追加すれば、なんとか相殺できることも確認できました(AIは、瞳を見せようとするので結果的にクローズアップになり、バギーパンツ+柄に勝ちます)。

Mariko has beautiful eyes, Pure white background, film still, 18 years old Japanese young woman Mariko, Y2K aesthetics hip-hop dance fashion, paisley pattern baggy pants --ar 16:9 --style raw

「Vary(Strong)」によるバリエーション結果

顔の表情を確認したいので、プロンプトから「paisley pattern baggy pants」を削除。

Mariko has beautiful eyes, Pure white background, film still, 18 years old Japanese young woman Mariko, Y2K aesthetics hip-hop dance fashion --ar 16:9 --style raw

生成結果

ちなみに、プロンプトから「baggy pants」(バギーパンツ)だけを削除すると、全身像にはなりませんが、イメージ全体に柄スタイル「paisley pattern」が反映されます。

生成結果

縦横比を「--ar 1:2」に変更。
Midjourneyは、縦横比が生成結果に影響を与えますので、試行錯誤するときに有効です。

生成結果

縦横比を「--ar 21:9」に変更。瞳がより強調されています。

生成結果

余談:
同じプロンプトでも「--style raw」を削除して「--s 1000 --niji 5」を追加すると、日本のアニメ/マンガスタイルのイメージに変わります。
※Nijiモデルについては、生成した画像を自分の作品として公開することをお奨めしていません。

生成結果


Midjourneyの縦横比と生成画像サイズ

縦横比は生成画像の結果に影響を与えますので、意図したイメージに近づけたい場合、比率を変更しながら探るとよいでしょう。

  • --ar 1:1 [1024 x 1024]

  • --ar 16:9 [1456 x 816]

  • --ar 3:4 [928 x 1232]

  • --ar 1:2 [768 x 1536]

  • --ar 21:9 [1680 x 720]

  • --ar 21:9 を下方向に拡張 [1680 x 1080]

  • --ar 21:9 を下方向と上方向に拡張 [1680 x 1440]

縦横比と生成画像サイズ

Midjourneyの最新のアップスケーラーは最大4倍となり、「--ar 16:9 [1456 x 816]」で実行すると、5824 x 3264 pxの画像になります。
高速モードでのみ使用可能で、処理に少し時間がかかります。

最新アップスケーラーの生成結果

Midjourneyの中でここまで超解像できるのは凄いですね。
※GPU消費も4倍になりますが…

資料(生成画像サイズの比較一覧)のダウンロード:

生成画像サイズの比較一覧


モデルのキャラクター設定

モデルの喜怒哀楽の検証です。Vlogでは何度もやっていますので、情報整理を目的とします。
名前biasについては、以下のVlogで解説しています。

日本人のMariko biasはまだ確認中なので、すでに検証済みのMatilda biasで試していきます。
まず、最も表現しやすい「笑顔」ですが「Matilda is smiling」が効いています。「笑顔」は試行錯誤せずに生成できます。

Pure white background, Matilda is smiling, Y2K aesthetics, film still, 17 years old Matilda, light brown Braid, Glossy plastic blue jacket, shiny/glossy, Pure white background --ar 16:9

生成結果

Matilda is smiling」を「Matilda is laughing out loud」に変更して、激しい笑い(大笑い)を表現しています。

Pure white background, Matilda is laughing out loud, Y2K aesthetics, film still, 18 years old Matilda, light brown Braid, Glossy plastic blue jacket, shiny/glossy, Pure white background --ar 16:9

生成結果
生成結果

悲しみの表現は「Matilda is crying」のように表現できますが、プロンプトに(前述の検証のような)強いフレーズが含まれていると、まったく効かなくなります。
プロンプトを分析して、強いフレーズを削除するか、同等の強さのフレーズで相殺するか、試行錯誤することになります。

Matilda is crying, Pure white background, Y2K aesthetics, film still, 18 years old Matilda, light brown Braid, Glossy plastic blue jacket, shiny/glossy, Pure white background --ar 16:9 --style raw

生成結果

「大声で泣く」という表現。
これは難易度が高くなります。以下のプロンプトには「Matilda is wailing loudly」と記述していますが、意図したイメージが生成される確率は低いので何度もガチャを回すことになります。

Pure white background, Matilda is wailing loudly, Y2K aesthetics, film still, 18 years old Matilda, light brown Braid, Glossy plastic blue jacket, shiny/glossy, Pure white background --ar 16:9

生成結果

「Shorten Command」でプロンプトを解析してみます。

Shorten Commandでプロンプトを解析

ヘアースタイルの「Braid」が最強で、あとはMatilda(マチルダ)とファッションの表現ですね。「wailing」はかなり低いので「wailing loudly」が成立していません。
つまり、このプロンプトでは「大声で泣く」という表現は不可能ということになります。

参考:ヘアースタイルの表現は以下のVlogで解説しています

ChatGPTで探ってみます。
「画像生成AIのプロンプトエンジニアリングの達人」という役割を与えて、条件を定義しました。以下がプロンプトです。

画像生成AIのプロンプトエンジニアリングの達人として、以下の条件で、生成プロンプトを考えてください。

#条件
・大声で泣いている女性の顔写真を生成する
・顔のクローズアップにする
・プロンプトの中に必ず、泣いている女性に関する情報の「Y2K aesthetics, film still, 18 years old Matilda, light brown Braid, Glossy plastic blue jacket, shiny/glossy, Pure white background, 」を入れること
・プロンプトの書き方は「〜してください」といった依頼の文章ではなく、その場の雰囲気や状況を表現する
・イラストにならないように注意する。カメラで撮影した「写真」を表現する。例えば「〜の美しい写真」のように写真であることを強調して書く
・プロンプトの冒頭に「Pure white background, 」をつける
・プロンプトの末尾に「--ar 16:9 --style raw」をつける
・プロンプトは必ず英語で考えてから、英語と日本語で書くこと

ChatGPTが生成したプロンプトです。

Pure white background, amidst the sharp clarity of a film still, we glimpse the raw emotion of an 18-year-old Matilda. Her face, in a close-up, is drenched in tears as she cries aloud. The Y2K aesthetics are evident, from her glossy plastic blue jacket to her shiny demeanor. Her light brown braid complements the intense emotion on her face. A beautiful photo capturing a fleeting moment. --ar 16:9 --style raw

日本語:

フィルムの一コマの鮮明な中で、18歳のMatildaの生の感情が垣間見えます。彼女の顔はクローズアップで、彼女が大声で泣きながら涙で濡れています。Y2Kの美学は、彼女の光沢のある青いプラスチックのジャケットからその輝く様子まで、明らかです。彼女の薄茶色の三つ編みは、彼女の顔の激しい感情を引き立てます。一瞬の瞬間を捉えた美しい写真。

長い文章のプロンプトはカスタマイズしにくいので、このままでは使えません。「Shorten Command」で不要なワードを削除して、コンパクトにしたプロンプトにします。

Shorten Commandでプロンプトを解析

「Shorten Command」で生成された5つのプロンプトの候補から1番目を選択。以下がコンパクトになったプロンプトです。

Pure white background, clarity of a film still, glimpse the raw, 18-year, Matilda, face, in a close-up, is drenched in tears as she cries aloud. The Y2K, from, plastic blue jacket --ar 16:9 --style raw

意図したイメージに近づきました。
画像生成のプロンプトは「文章より、単語の羅列」の方が編集しやすいので、最初から「単語の集合体」にして検証した方がよいのですが、煮詰まってきたら、ChatGPTとMidjourneyの「Shorten Command」でほぼ解決する感じです。

生成結果

Mariko bias(マリコ)はまだ検証できていませんが、Matilda bias(マチルダ)をテンプレートにして試してみます。
笑顔の表現「Mariko is smiling」は効いています。

Pure white background, Mariko is smiling, Y2K aesthetics, film still, 18 years old Mariko, black long straight hair, Glossy plastic blue jacket, shiny/glossy, Pure white background --ar 16:9

生成結果

「泣く」表現の「Mariko is crying」はあまり効いていませんが、「crying」はそこそこの強さがあるので(下図のShorten Commandによるプロンプト解析を参照)、悲しい表情にはなっています。

Mariko is crying, Pure white background, Y2K aesthetics, film still, 18 years old Mariko, black long straight hair, Glossy plastic blue jacket, shiny/glossy, Pure white background --ar 16:9

生成結果
Shorten Commandでプロンプトを解析

ワードやフレーズの影響力を強くするテクニック

手っ取り早いテクニックとして「同じ単語の繰り返し」があります。
以下のプロンプトの冒頭には「crying, crying, 」という記述があります。「Mariko is crying」も残っているので、cryingを3回記述していることになります。「泣き顔」に変わっているのが分かると思います。
※プロンプトから離れてしまうことがありますので万能ではありません。

crying, crying, Mariko is crying, Pure white background, Y2K aesthetics, film still, 18 years old Mariko, black long straight hair, Glossy plastic blue jacket, shiny/glossy, Pure white background --ar 16:9 --style raw

cryingを3回記述した結果

「笑顔」表現でも同様で、以下のプロンプトに「smiling, smiling, 」を追加すると、より意図したイメージに近づきます。
ただ、繰り返しになりますが「プロンプトから離れてしまう」ため、Mariko bias(マリコ)の影響力も低下しています。
応急処置的なテクニックだと捉えておけばよいと思います。

smiling, smiling, Pure white background, Mariko is smiling, Y2K aesthetics, film still, 18 years old Mariko, black long straight hair, Glossy plastic blue jacket, shiny/glossy, Pure white background --ar 16:9 --style raw

smilingを3回記述した結果


名前biasを利用したキャラクターデザイン

以前検証した名前biasについての情報を掲載しておきます。
以下は、名前biasの基本型を使って、5人のキャラクター(Matilda, Sophia, Isabella, Emma, Mariko)をデザインしています。

名前biasの基本型を利用したシーン生成

名前biasについては、以下のVlogで解説していますので参考にしてください。

Matilda biasの基本型

film still, Matilda, light brown Braid, 18 years old, Glossy plastic blue jacket, Pure white background --style raw

Matilda biasの基本型
Matilda bias基本型を応用して生成したイメージ

Sophia biasの基本型

film still, Sophia, dark brown very short/perm, 19 years old, Glossy plastic blue jacket, Pure white background --style raw

Sophia biasの基本型
Sophia bias基本型を応用して生成したイメージ

Isabella biasの基本型

film still, Isabella, white short bob, 20 years old, Glossy plastic blue jacket, Pure white background --style raw

Isabella biasの基本型
Isabella bias基本型を応用して生成したイメージ

Emma biasの基本型

film still, Emma, pink pixie cut, 18 years old, Glossy plastic blue jacket, Pure white background --style raw

Emma biasの基本型
Emma bias基本型を応用して生成したイメージ

Mariko biasの基本型

film still, Mariko, black long straight hair, 22 years old, Glossy plastic blue jacket, Pure white background --style raw

Mariko biasの基本型
Mariko bias基本型を応用して生成したイメージ

同一のキャラクターを生成したい場合、seed値を付加する方法や複数のリファレンス(参照画像)をプロンプトに付ける方法などがありますが、名前biasは検証用として有効です。
実際は、完全な同一画像は生成できませんが、上記の組み合わせやPhotoshopによる画像処理である程度、統一感を与えることは可能です。

5人のキャラクターイメージ


第3回目に続く



更新日:2023年10月30日(月)/公開日:2023年10月29日(日)

この記事が気に入ったらサポートをしてみませんか?