見出し画像

Neutral prompt掘り下げ③:AND_TOPK編•ip-adapterに近い効果っぽい

これがAND_TOPKの論文です。
とりあえず、題名のSEGAってのが良いですね。ゲームっぽくて。
しかし、これは、「semantic guidance」というこの論文で提唱している英語の略のようです。
多分SEGAが好きだと思うとこの論文に愛着がわいてくるかも。

<GPT要約>
アブストラクト: テキストから画像への拡散モデルは、テキストのみから高忠実度の画像を生成する驚異的な能力により、近年多くの関心を集めています。しかし、ユーザーの意図に沿ったワンショット生成を達成することはほぼ不可能であり、入力プロンプトの小さな変更で画像が大きく異なることが多く、ユーザーにセマンティックな制御をほとんど提供しません。この問題に対処するため、我々は拡散プロセスと対話し、セマンティックな方向に沿って柔軟に誘導する方法を示します。このセマンティックガイダンス(SEGA)は、分類器フリーガイダンスを使用する任意の生成アーキテクチャに一般化され、微妙で広範囲な編集、構成とスタイルの変更、および全体的な芸術的概念の最適化を可能にします。我々は、Stable Diffusion、Paella、DeepFloyd-IFなどの潜在的およびピクセルベースの拡散モデルにおけるSEGAの有効性を実証し、その汎用性、柔軟性、および既存の方法に対する改善を強く示しました。
背景: テキストから画像への拡散モデルは、その直感的なインターフェースと表現力により人気がありますが、初期生成画像の品質はしばしば低く、小さなプロンプトの変更で異なる画像が生成されるため、細かなセマンティック制御が必要です。SEGAは、これらのモデルの既存のセマンティック方向と対話することにより、追加のトレーニングやアーキテクチャの拡張なしで、シンプルなテキスト記述を使用してこのセマンティック制御を実現します。方法: SEGAは、ガイドされた拡散とコンセプトに基づくセマンティックガイダンスを組み合わせることで、画像生成プロセスをセマンティックな方向に誘導します。これには、テキストプロンプトに基づいて計算されたノイズ推定の調整と、特定のコンセプト記述に条件付けされた推定の差分を利用することが含まれます。SEGAは、複数のテキスト記述を用いて複数のセマンティック方向を同時に誘導する能力も有しています。
結果: SEGAは、さまざまな拡散モデルとタスクにわたって、細やかなセマンティック制御を実現することを実証しました。特に、人間の顔の属性に関する広範な実験では、SEGAが目標とするコンセプトを画像に正確に追加できることが示され、同時に複数のコンセプトを誘導する場合でも高い成功率を達成しました。
議論: SEGAは、ユーザーが生成過程において直感的にセマンティックな方向性を制御できるようにします。このアプローチは、既存の方法と比較して、特に複数の編集や小さな変更において、優れた性能を示しました。
限界: SEGAの効果は、基礎となるモデルのセマンティック表現の品質に依存します。したがって、モデルが不適切なデータでトレーニングされた場合、SEGAを使用してもバイアスや不適切な生成を完全に回避することはできません。

Q.セマンティックとは何ぞや?
「セマンティック」とは、意味や意義に関するものを指します。コンピュータサイエンスや情報技術の文脈では、データや言語、シンボルなどが持つ意味や関連性を理解、解釈することを指します。特に、テキストから画像への変換モデルにおいては、入力されたテキストの意味を正確に理解し、それに基づいた画像を生成する能力を指すことが多いです。

上の要約を見たとしても、意味が良く分かりませんね。

論文の図表を見た方が分かりやすいと思いました。

論文の図の一部
論文の図の一部

この図表を見る限りでは、普通にプロンプトで付け加えるよりは、元の絵を残しつつ、付け加えたり、画風などを変えるみたいな感じのように見受けられます。

同じシード値の画像で、上と同じことをしてみて再現性について検討してみました。

今回は単純なプロンプトで
1girl, teen, blue hair, short hair, red eye, small breast, wearing T-shirts, outdoors, parkscape, detailed face, detailed background, best quality, masterpiece

1195978169

①AND_TOPK glasses :1 を付け加えたもの

ウェイト1
XYZプロット

元絵と背景は比較的近いですが変化はありますね。上のだと0.6から眼鏡が出てきます。

ウェイト0.4 (glasses:1.2)と強調したもの

wearing glassesを追加したもの

ということで、ウェイトを調整すれば元絵の構図に近いもので追加が可能ということが分かりました。
笑顔を追加
AND_TOPK (glasses:1.3),(smile:1.3) :0.4

眼鏡が薄くなっている

AND_TOPK (glasses:1.3),(smile:1.3),(curly hair:1.4) :0.4

追加方法については、まとめてやる感じが良さげです。

服装も変えられました。本当は画風を変えたかったのですが、使用しているモデルは無理でした。多分。。

元絵:参考用

AND_TOPK (ukiyo-e style:1.3) :0.4

AND_TOPK (old school style:1.3) :0.4

ということで、こちらの方は使い方が分かりやすいものだと思いました。
やっていることはIP-adapter的な感じの印象ですので、それをプロンプトだけでやっている感じなのでしょうか。

この記事が気に入ったらサポートをしてみませんか?