見出し画像

AUTOMATIC1111でAND機能の説明にハマった話

はじめに

AIで毎日イラストを作りまくってるアホです。
ヘッダーもAIで作りました。かわいい。

ところで、AIでイラストを作る際によく使われるのがAUTOMATIC1111(StableDiffusion WebUI)。
こいつはpromptのトークン数(要は単語数)の上限が無制限(通常は75)という特徴があるんですね。

で、ここからが問題でして、日本語サイトでAND機能(後述)について調べると……どのサイトも「トークン数無制限はAND機能を使っている」と書いている。が、こうも書いている。
DDIMとPLMSでは使えない」と。
(注釈: DDIM, PLMSはサンプラーの名前。要は「どうやってイラストを作るか」という方法の名前)

私はよくDDIMを使ってイラストを作っているわけだが……トークン数は余裕で100を超える。これはまずい。

ということで死ぬほど調べまくっても何も出てこなかったので最終手段「GitHubのAUTOMATIC1111リポジトリのDiscussionで聞いてみる」

Can I use "over 75 tokens prompt" with DDIM, PLMS? 

結果

結論としては

  • DDIMでもPLMSでもトークン数無制限機能は使える

  • でもAND機能は使えない

とのこと。矛盾しているようだがしていない。

細かい仕組み云々

そもそもAND機能は“Composable Diffusion”とも呼ばれる機能であり、簡単に言えば「プロンプトを分割してAIに渡す」機能(= parallel)であるとのこと。
それに対してトークン数無制限機能は「プロンプトを繋げてAIに渡す」機能(= series)であり、全くもって別のものらしい。

つまるところ、プロンプトがクソ長くても問題はないのだ。やったぜ。

なお、補足としてトークン数無制限機能も万能ではない
AIは、プロンプトの先頭にある単語ほど影響を受けやすく、後になればなるほどその影響は薄くなっていく。
が、プロンプトが長ければ長いほど先頭の単語の影響力は薄くなるとのこと。
要は長ければ長いほど先頭の単語の影響は弱くなる。

おわり。

良いAIライフを!

この記事が気に入ったらサポートをしてみませんか?