Stable DiffusionでText Encoderの出力を短く切ってみる
先日、Text Encoderの出力の順序を変える実験を行って、順序がStable Diffusionの生成画像に影響を与えないことを確認しました。
その後、さらにコードを読み込んで、Text Encoderの出力の長さが変わっても、画像生成モデル自体は正常に動作するはずだと気づきました。
また、少なくともdiffusersのUNetの実装には、Text Encoderの出力にマスクを付けて渡すことができるようになっていて、Text Encoderの出力のどのトークン位置