見出し画像

StableDiffusionの呪文分析2

さて、前回しばらく分析をしていた中で、いくつかの疑問点が上がってきていたので、今回はそれらを検証していきたいと思います

論点1:単語が持つイメージってどう格納されてるの?

まずは前回作成していた刀を持った怪物のイメージで、
あれ?なんか刀が日本以上あるの多くね?
というのと、
刀を持ってると侍っぽくなるよね?
という点がなんとなく気になったので、
刀・ブレード・ソードの3つの単語を単独で生成させてみた

katana
katana

他に何もいれてないけど、こんなのがいっぱい出てきたよ
割合女性多め、和装してる。そして刀はなんか細長い直線の何かと化している

blade
blade
blade

おわかりでしょうか?
ブレードで単語を入れると、某映画の影響が大きいということがわかります
もちろん剣自体が出てくることもあるんですが、黒人が一定の確率で併存してきますね
わからない方はbladeと映画で検索してみてください。
このあたりでわかってきたのが、それぞれの単語はベクトルとして存在しており、それらは意味空間に位置してるってことですね。
この表現の意味がわかりにくい場合は、メイドインアビスの黄金郷の言葉みたいなもんだと思ってほしい。
ブレードって単語は剣40%, 黒人40% 革ジャケット20%みたいな感じかな?

sword
sword

ソードは他に比べて、ちゃんと剣のイメージを作ってくれます。
というわけで、単語は大事。
それも、自分が思ってるイメージではなく、AIのStableDiffusionくんが何を学習したのかは大事ですね。

論点2:単語を繰り返すとそれがたくさん出てくる?

何処かからテキストを持ってきたり、似たような表現を複数回繰り返して入力していると、boy boy boyみたいな感じで繰り返しが起きてくるんだけど、これってどう影響するの?刀の本数が増えてない?という疑問点を検証してみた

検証に際して、コンマでつなげるパターン、繋げないパターン複数の表現を重ねるパターンを組み合わせてみた

katana, katana, katana 
katana, katana, katana 
katana, katana, katana 

なんとなく結論が見えてきますね
続いてコンマなしだと

katana katana katana
katana katana katana


katana katana katana

これが、どうなのかが微妙なラインでしたね。
コンマありだと確実に増えてる気がするんですが、コンマなしだと、ちょっと多いこともあるなぁ。ぐらいでした。
正直一回だけ画像生成しているだけだと、全然わからないので、大量にデータは出力したほうが傾向が見れますね

それでは続いて、別の表現を重ねた場合、コンマあり版です

katana, blade, sword
katana, blade, sword
katana, blade, sword
katana, blade, sword

うーん。別々に描いてる?
どうなんでしょう

katana blade sword
katana blade sword
katana blade sword

なんとなく思っていたことの一つが、
刀はナタみたいな形してる気がする
そして、なんとなく意図的に複数の武器を表現しようとしている気がする

結論としてはやっぱり一本だけ表現したいのであれば、重ねないほうが良いし、使う単語はswordがいいかな
たくさん出したいなら、単語を重ねると出る確率が増えるかも
unlimited blade workとかしたいのであれば、たくさんswordって入れるのもありかもね

論点3:今絵がうまくなるって言われてる呪文を試してみよう


今ネットでよく囁かれてるこの単語を使うと絵がきれいになるよという単語をそれのみで投げてみて、本当に意味があるのか、試してみよう

4k
detailed face
unreal engine
symmetrical portrait
octane rendered
symbolic fantasy
concept art
pixiv
cinematic lighting
global illumination
radiant light

これを見てると、単語によってどれに向いてるか、どれは避けたほうがいいのかは結構見えてきますね

ちなみに顔の造形がうまくいかない病は、どうやら、解決できそうな気がする
どうすればいいのかわからないが、成功率はそこそこになるんじゃないかな?

次回あたりはその辺りの単語(symmetrical face )と、どうすれば手にちゃんと持ってくれるのか問題を議論していきたい


The Hanged man
The lovers
The Hanged man

でも、上半身から腰までぐらいまでの距離がぎりぎりですかね

the emperor

やっぱり顔のアップのほうが安定しやすいですね
アップだと、あぁ、こんな顔の人いるよね。ぐらいの精巧さで描いてきますね

この記事が気に入ったらサポートをしてみませんか?