CLIP Text Deprojectorを使って画像生成してみる　～最終レイヤー正規化層を固定する～

2023年12月23日 21:29

以前、一部のパラメータを学習しないことでモデルの質が向上する可能性について調査しましたが、今回は最終レイヤー正規化層のパラメータを固定したモデルについて検討します。

前回の記事

他のStable Diffusionの関連記事

Layered Diffusion Pipelineを使うためのリンク集

以前の取り組み

以前、一部のパラメータを学習しないことでモデルの質が向上する可能性について調査した記事はこちらになります。

この時は、VTモデルでAttention部分のパラメータについての検証でした。その後、モデルをLSTMベースに変更したため、この記事の内容は現在のモデルには適用できなくなっています。

しかし、現在のLSTMベースのモデルでも、最終レイヤー正規化層はCLIPテキストモデルのパラメータで初期化するため、これを固定することは可能です。

今回は、同時に、前回までの知見を元に、LSTMモデルを整理して更新しました。

基本的に、前回の結論で選んだモデル（線形変換＋線形変換）を整理してレイヤー正規化や残差接続も省略せずに描き直したものですが、以下の点に変更があります。

[1]の分岐は、残差接続をLSTMセルへの再帰的入力の前に行うか、後に行うかという違いです。

実験は、次の２つの点を変化させて４つのモデルを学習して比較しました。

生成画像は上から次の順に並んでいます。

使用したプロンプトはこれまでと同様、次の通りです。

単一embedding

複数embeddingの合成

最終レイヤー正規化のパラメータを学習したモデル（２段目３段目）とパラメータを固定したモデル（４段目５段目）の生成画像を比べると、次の違いがあります。

LSTMモデルを更新し、最終レイヤー正規化層のパラメータを固定する実験を行いました。

正規化層のパラメータを固定すると、プロンプトの再現性が上がりますが、同時に大きなノイズが生まれます。

正規化層のパラメータを固定したまま、ノイズを減らすようにモデルを改善することで、モデルに質を向上させることができる可能性があります。

この記事が気に入ったらサポートをしてみませんか？