シニアだけどStable Diffusionで娘の入学式のイメージ画像をつくってみた

2024年4月8日 21:39

どうも、駆け出しシニアのHot3DegC(ホットサンド)です。

今日、娘の入学式に行って色々思い出の写真や動画を撮影したのですが、全くセンスのないものばかりでガッカリしたので、Stable Diffusionで代わりにイメージ画像を作成してみました。

作った画像を紹介するだけだと単なる親バカな投稿になるので、私がどのようにしてイラストを作成しているかを交えて紹介したいと思います。

最初にすること

どんなものを生成してもらうかにしてもまずは、どんな結果を期待しているのか を明確にすることです。

何にでも言えることなのですが、目的は何？ ってことを最初に明確にしていくことで、目的と手段を混同しないようにしたいと思います。

今回の場合でいうと下記のようになります。

目的:娘の入学式のイメージ画像を作る
手段:Stable Diffusionで生成

今回の目的はあくまでイメージ画像を作るであって、Stable Diffusionで画像を生成することが目的ではありません。

目的の詳細化

次に期待する目的を達成するために、目的をより詳細に落とし込みます。

私は、目的の落とし込みは、仕事や遊びを選ばずにより良い体験をえるための最適なステップだと考えています。誰でもそうだと思うんですが、目的が達成されたり期待する結果がえられたりすると気分が良いですよね。

なので、目的をより詳細に明確化していきます。

娘の入学式のイメージ画像をつくる

どのような画像？

イラスト風で桜の木が背景で、ブレザーの制服を着たショートカットの女の子の画像

娘の顔出しはしたくないので、実物に近づけすぎない程度のイメージ画像を記念に作成したいと考えたので、こんな感じに目的をアップデートしました。

他にも明確化したこともあるのですが、書き出すと長くなるので割愛させて頂きます。

だって、画像生成から記事作成まで3時間でっていう時間制限という『いつまでに』や『どのように』っていうようなことまで明確化してちゃったので……

手段の選択

目的が明確になったら次は、目的を達成するための手段を考察するのですが、今回はカメラ撮影がうまくいかないため、目的の画像を疑似的にAIに生成してもらうという結論に達していたので、どのAIを手段の実施に用いるか検討しました。

私の取り得る画像生成AIで候補にあがるのが、主に利用しており若干ほかの生成AIより慣れているDALL-E3かStableDiffusionが有力候補となります。

が、今回はある課題が発生して、この記事の続編としてDALL-E3を使った課題解決の記事も書けたらなぁ～と欲が出てちゃいましたので、Stable Diffusionで進めたいと思います。

手段の実施計画

では、実際に手段を実施するための準備に取り掛かります。何事も試してみることが大事なのですが、制限時間もあるので、効率的に進めるために計画をたてたいと思いますが、

世の中の賢人が授けてくれたテンプレートという魔法を活用したいと思います。世の中には物事に対するベストな方法が生み出さていることが多くあり、画像生成時における呪文（プロンプト）についても私のような愚民でもある一定の成果を獲得出来るような教えが広まっておりますので、先人に習っていきます。

私は、Stable Diffusionで画像生成をする場合、プロンプトのテンプレートを準備しており、型化した決まった観点のキーワードをテキスト化してから順番につなげて、プロンプトとネガティブプロンプトに入力しております。

その決まった観点というのが下記です。
私はいくつかの観点については、決まったキーワードを固定で入力しております。

ということで、手段の実施計画としては、テンプレートとなるプロンプトを準備して、素早くプロンプトを作成して、画像を生成する計画として進めたいと思います。

手段の実施準備（プロンプト作成）

ここまで来たら、手段の実施まで間もなくですね。なんせ、（呪文）プロンプトの固定値以外の画風と容姿と背景に被写体数のテキストを容易するだけですからね。

では、順番に進めていきます。

画風: アニメのイラスト風で作成したいので、いつもお世話になっている『Anything v5』をモデルに選択するので、プロンプトとしては未定義とします。モデルの切り替えについては、過去の記事を参考にしてもらえればと思います。

被写体数: 入学式を向かえた娘は一人なので、『1 cute girl』とします。女の子の画像を生成する際には欲張ってcute ってつけちゃいます。娘も本当にカワイイのですが、親バカってことではなくいつも採用しております。

容姿: 「雰囲気、体系、髪型、顔つき、胸の大きさ、服装」を指定します。全体的なイメージから体系に続いて、頭からつま先までを順番にしていしつつ、最後にまた服装で全体のイメージを指示するようにしています。表情や装飾物などの指定がある場合は、近い部位のテキストの位置に追加しています。今回は、『Tomboy Cut, Cuteness, Soft Gaze, Simple Body Lines, small breasts, School Blazer, slacks』で進めてみますって、順番がバラバラですね。焦っていたのでお許しください。因みにですがウチの娘はスラックス派です。

背景: 入学式をイメージして、桜の木の下と校庭というキーワードを翻訳して準備しました。『under the cherry tree, schoolyard』で進めましたが、校庭より校舎の方が良かったのかな……

全部のキーワードをつなげたプロンプトがこちらです。

呪文（プロンプト）

masterpiec, high quality, extremely detailed face,
photo,
Full Shot,
1 cute girl,
Tomboy Cut, Cuteness, Soft Gaze, Simple Body Lines, small breasts, School Blazer,
slacks, under the cherry tree, schoolyard

なんか余計なの入っていますが、ちっちゃいことは気にするな♫って誰かが言っていましたので、スルーして進めます。

ネガティブプロンプト

low quality,
bad ears, bad mouth, bad eyes,
text,
two shot

ここは、被写体数に併せて、数字を変えるだけなのでって、なんかいつもより足りてないな。きっと綺麗に並び替えようとしたからだな。

手段の実行（Stable DiffuisonでGenerate）

あとは、実際にプロンプトにコピペして生成（Generate）ボタンを押すだけです。

およそ３回目ぐらいで私の娘のイメージに近いイラストが生成されましたので、これで目的の達成としたいと思います。

費やした時間は……

ええ、４時間ほどかかりました！

プロンプト作成と画像生成には20分ほどしか時間を費やしていないのですが、圧倒的に記事を書くのに時間を使ってしまいました。

noteデビューして10日ほどだとこんなものですかね。
精進したいと思います。

一応、下記に今回作成した画像を再現出来るようにプロンプトとパラメータなどを残しておきます。

masterpiec, high quality, extremely detailed face,
photo,
Full Shot,
1 cute girl,
Tomboy Cut, Cuteness, Soft Gaze, Simple Body Lines, small breasts, School Blazer,
slacks, under the cherry tree, schoolyard
Negative prompt: low quality,
bad ears, bad mouth, bad eyes,
text,
two shot
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 2591194268, Size: 512x512, Model hash: 7f96a1a9ca, Model: AnythingXL_v50, Version: v1.8.0

最後のおまけ

最後まで読んでいただき有難うございました。

未熟なのに急いでいては、細々したところでミスが発生しちゃいますね。どんな時でも焦らずに冷静に行動できるように精進したいと思います。

因みにですが、ウチの娘ってメガネっ子なのですが、プロンプトにメガネの記入が漏れておりました。

言い訳になるのですが、この漏れは比較的早い段階で気づいていたのですが、生成された画像にメガネを追加する体験記事を書こうと思い、そのままで進めておりました。

なので、近日中に画像加工の記事もお届けすると思いますので、引き続き応援のほど宜しくお願いします。

よろしければサポートお願いします！頂いたサポートは記事テーマのツールやアプリの購入費に使わせていただきます！レビュー希望のツールなどあればコメント頂けると嬉しいです。