見出し画像

高速画像生成手法 ~Latente Consistency Model(LCM)~

comfyUI画像生成の精度がDALLE3を筆頭に向上していく中、
同時に生成速度も上がっていってます。

今やGPUなんてなくても数十秒で1枚作れたりする時代。
速度なんて早ければ早いほど良いですからね、
ということで少し前に話題になって、鎬を削る高速生成手法の一角がLCMです。

高速生成界隈は150FPSが出た SD Turboの方がやや優勢な印象もありますが、
比較のためにも仕組みを少しみて触って行こうかなと思います。



Latente Consistency Model(LCM)

背景

  • Stable Diffusionなどの拡散モデルは高品質の生成が可能ですが、ノイズを除去する処理の関係上数十ステップ必要

  • LCMは知識蒸留を用いて4〜8ステップで画像生成が可能に

手法

Diffusionモデルに対して、一貫性のあるトレーニング(Consistency Training)を行なって微調整するそうだけど、ちょっと元のDiffusionモデルの理解が浅いので疑似コードがうまく読めない…

LCMの疑似コード

多分サンプリングしたデータを潜在空間にマッピングして、対してノイズを付与して、損失計算してEMA?を使用してθを更新するみたいな雰囲気なんだろうけど、
細かいところが大事なのに細かいところが把握できないので、蒸留っぽいことしてることしかわからねえ…
もう少し時間とって読みます…

LCM in ComfyUI

パラメータを変えながらサメ頭マンを生成してみました

ちょっとモデル選びミスったのと、画面収録中だから遅くなってる気がするけどそれでも早いし綺麗
ComfyUIの使い方をわかってないのでimg-to-imgとかCntrollnetが繋がってないけど、その辺習得したらちょっとしたVtuberができそう

この記事が気に入ったらサポートをしてみませんか?