見出し画像

Depthモデルの比較:2024/3時点

Txt2imgで、いくつかのDepthモデルを使用した際の比較をしてみたので、せっかくなので記事にしました。生成時間の比較がメインです。
参考になればと思います。
比較したDepthモデルは以下の5つです。正しい使い方ではないかもしれませんが、「diffusers_xl_depth_full」で全て行いました。これより小さいサイズだと生成時間は速くなると思います。精度が下がるかと思い(未検証)一番大きいものにしています。
なお、生成時間は、2回目以降の生成時間が安定してきたあたりのものを採用しています。初回はどれも時間がかかります。

<検証したDepthモデル>
①Depth Midias
②Depth Lens++
③Depth zoe
④Depth anything
⑤Depth marigold

<使用環境など>
Paperspace A4000
DPM ++ SDE
Step 6
解像度 1024x1024
FreeU +
KyohaHRFix +

使用モデル:Chroma XL 

<プロンプト>
1girl, black hair, long hair, spiring outfit, full body, dynamic posing, looking at viewer, (outdoors:1.1),(in park:1.1), (detailed background),
prefect lighting, very aesthetic, best quality, masterpiece

①通常生成の場合  4.8s / 枚程度

4.8s / 枚程度

②Depth Midiasの場合  6.9s / 枚 (2回目以降)

②Depth lens ++ 10.0s / 枚程度

③Depth zoe 7.7s / 枚

たまたま失敗ぎみになったもの(多くは問題なく生成されています)

④Depth anything 7.3 s/枚

⑤Depth marigold 14-16 s / 枚

最初の画像は倍の30秒越えでした。

ということで比較になりますが、生成速度に関しては、どれも通常生成より時間がかかっていることが分かりました。現状はDepth anythingが生成時間と質的なものを考慮すると良さそうですね。
DeforumだとDepth zoeにすると生成時間がかなりかかるのですが、この結果と乖離しているため、そのあたりが個人的に気になるところです。

Depth marigoldは初めて使用しましたが、いつの間にか追加されているモデルになります。Depth mapの詳細さは他より群を抜いて綺麗ですが時間がかかりすぎるのが難点ですね。

今後、DepthFMというプリプロセッサーが採用される予定(済?)のようですが、これはmarigoldよりも高精度で、生成速度が速いという触れ込みなので、これ次第では乗り換えもありだと思われます。

※ForgeのActivityを見ると2024/3/24にDepthFMが使用出来るみたいな感じになっていますが、3/25時点でForgeを見ても、プリプロセッサーの一覧には見られないため未検証になっています。


この記事が気に入ったらサポートをしてみませんか?