画像生成の難しさ

2023年8月23日 08:52

まだまだ未熟な私ですが、やりたい事ばかりは一人前にあります。

Stable Diffusionでの生成の難しさを痛感するのが、基本サイズ外
学習しているサイズが512x512の画像や、768x768の画像らしいので
人物を指定すると、無理やりにでも入れてこようとする。

縦長であればfull bodyを入れて生成してもそこまで問題はない
しかし横長になるとfull bodyを抜いていても全身を無理やり入れてこようとする。

sittingを入れているにも関わらず寝ころび全身を入れてくる。

もしくはselfieみたいな生成ができる。
前回の記事みたく横長でよい画像を生成するのに数多くのクリーチャーが生成される。

これには枚数を多くではなく一枚一枚丁寧にPromptを書いていくしかないのだが、wildcardを使いランダムで生成してそこから絞るやり方をしているとそれが逆に効率が悪くなる。

背景をきっちりいれて生成すれば横長でもきちんと生成はしてくれる。

逆に背景の支持をざっくりな表現にするとPrompt指示の多めな人物を横長に無理やり詰めてくる。

座っている女性をモチーフに書いてみた下記の画像は5枚に1枚くらいしか、
構図を保っている状態がなかった

指示はsitting on the sofa文章構文はもとより従ってくれないのは分かってはいたが、ここまでとは思わなかった・・・

殆どの画像が寝そべり、奇形手足が生成され苦労しました。
もちろんanatomy系プロンプトも盛り込んでも言う事を聞いてくれなかった。
逆にこういうのを考えて楽しめている自分がいるのでそこがStable Diffusionの楽しい部分ではある。

この記事が気に入ったらサポートをしてみませんか？