見出し画像

StableDiffusionの呪文分析2

2022年9月4日 22:50

さて、前回しばらく分析をしていた中で、いくつかの疑問点が上がってきていたので、今回はそれらを検証していきたいと思います

論点1:単語が持つイメージってどう格納されてるの？

まずは前回作成していた刀を持った怪物のイメージで、
あれ？なんか刀が日本以上あるの多くね？
というのと、
刀を持ってると侍っぽくなるよね？
という点がなんとなく気になったので、
刀・ブレード・ソードの３つの単語を単独で生成させてみた

katana

katana

他に何もいれてないけど、こんなのがいっぱい出てきたよ
割合女性多め、和装してる。そして刀はなんか細長い直線の何かと化している

blade

blade

blade

おわかりでしょうか？
ブレードで単語を入れると、某映画の影響が大きいということがわかります
もちろん剣自体が出てくることもあるんですが、黒人が一定の確率で併存してきますね
わからない方はbladeと映画で検索してみてください。
このあたりでわかってきたのが、それぞれの単語はベクトルとして存在しており、それらは意味空間に位置してるってことですね。
この表現の意味がわかりにくい場合は、メイドインアビスの黄金郷の言葉みたいなもんだと思ってほしい。
ブレードって単語は剣40%, 黒人40% 革ジャケット20%みたいな感じかな？

sword

sword

ソードは他に比べて、ちゃんと剣のイメージを作ってくれます。
というわけで、単語は大事。
それも、自分が思ってるイメージではなく、AIのStableDiffusionくんが何を学習したのかは大事ですね。

論点2:単語を繰り返すとそれがたくさん出てくる？

何処かからテキストを持ってきたり、似たような表現を複数回繰り返して入力していると、boy boy boyみたいな感じで繰り返しが起きてくるんだけど、これってどう影響するの？刀の本数が増えてない？という疑問点を検証してみた

検証に際して、コンマでつなげるパターン、繋げないパターン複数の表現を重ねるパターンを組み合わせてみた

katana, katana, katana

katana, katana, katana

katana, katana, katana

なんとなく結論が見えてきますね
続いてコンマなしだと

katana katana katana

katana katana katana

katana katana katana

これが、どうなのかが微妙なラインでしたね。
コンマありだと確実に増えてる気がするんですが、コンマなしだと、ちょっと多いこともあるなぁ。ぐらいでした。
正直一回だけ画像生成しているだけだと、全然わからないので、大量にデータは出力したほうが傾向が見れますね

それでは続いて、別の表現を重ねた場合、コンマあり版です

katana, blade, sword

katana, blade, sword

katana, blade, sword

katana, blade, sword

うーん。別々に描いてる？
どうなんでしょう

katana blade sword

katana blade sword

katana blade sword

なんとなく思っていたことの一つが、
刀はナタみたいな形してる気がする
そして、なんとなく意図的に複数の武器を表現しようとしている気がする

結論としてはやっぱり一本だけ表現したいのであれば、重ねないほうが良いし、使う単語はswordがいいかな
たくさん出したいなら、単語を重ねると出る確率が増えるかも
unlimited blade workとかしたいのであれば、たくさんswordって入れるのもありかもね

論点3:今絵がうまくなるって言われてる呪文を試してみよう

今ネットでよく囁かれてるこの単語を使うと絵がきれいになるよという単語をそれのみで投げてみて、本当に意味があるのか、試してみよう

4k

detailed face

unreal engine

symmetrical portrait

octane rendered

symbolic fantasy

concept art

pixiv

cinematic lighting

global illumination

radiant light

これを見てると、単語によってどれに向いてるか、どれは避けたほうがいいのかは結構見えてきますね

ちなみに顔の造形がうまくいかない病は、どうやら、解決できそうな気がする
どうすればいいのかわからないが、成功率はそこそこになるんじゃないかな？

次回あたりはその辺りの単語（symmetrical face ）と、どうすれば手にちゃんと持ってくれるのか問題を議論していきたい

The Hanged man

The lovers

The Hanged man

でも、上半身から腰までぐらいまでの距離がぎりぎりですかね

the emperor

やっぱり顔のアップのほうが安定しやすいですね
アップだと、あぁ、こんな顔の人いるよね。ぐらいの精巧さで描いてきますね

この記事が気に入ったらサポートをしてみませんか？