見出し画像

SDXLに初トライ(2次元)


1. SDXL1.0がリリースされました

Stability AI社が2023年7月26日、テキストによるAI画像生成モデルSDXL(Stable Diffusion XL)の新バージョンSDXL 1.0をリリースしました。

https://ja.stability.ai/blog/sdxl10

同社によるSDXLの解説は以下の通り。

SDXL 1.0は、3.5Bのパラメータベースモデルと6.6Bのパラメータリファイナーから構成される革新的な新アーキテクチャに基づいて構築されており、オープンアクセス画像モデルの中でも最大級のパラメータ数を誇ります。
フルモデルはレイテント(潜在)ディフュージョンのための混合エキスパートパイプラインで構成されます: 最初のステップでは、基本モデルが(ノイズの多い)潜在情報を生成し、最終的なノイズ除去ステップに特化したリファインメントモデルでさらに処理されます。ベースモデルはスタンドアローンモジュールとしても使用できることに注意してください。
この2段階のアーキテクチャにより、速度を損なうことなく、また過剰な計算リソースを必要とすることなく、ロバストな画像生成が可能になります。SDXL 1.0は、8GBのVRAMを搭載したコンシューマー向けGPUや、すぐに利用可能なクラウドインスタンスで問題なく動作するはずです。

Stablity AI社 HPより

オープンソースの同生成AIをローカル環境で使用するためのAutomatic1111も7月25日にSDLXに対応したv1.5.0をリリース(7月30日時点ではバグ修正版のv1.5.1になっています)。

「自宅のグラボはRTX3070(=VRAM8GB)なので、Stablity AI社の言っていることが正しいならば、何とか動くのだろう」ということで、家の環境にてStable Diffusionのバージョンを1.5.1まで上げて、SDXLでの画像生成ができるようにしてみました。

私はだいたいメジャーバージョンアップの後でloraが使えなくなったりvaeがおかしくなったりするので、別環境にgit cloneしました(勇気がある人はそのままgit pullしてバージョンアップするもよしだと思います)。

2. 初生成

使用モデル:CounterfeitXL

記念すべき1枚目はこんな感じになりました。 

absurdres, best quality, 1girl, solo, standing in front of torii, wearing kimono with flower pattern, smiling and holding bag, wearing kanzashi on head的な感じのプロンプトだったはず

・・・もっと「うわっ」って感じの画像になるかと思ったのですが、意外とぽん出しでもちゃんとした画像が出てきました。

2023年の2月ごろに初めてStable Diffusionで出力した時の画像は・・・たぶんあまりにひどい出来だったので捨ててしまったのですが、今回は記念に残しておこう(残しておいてもまぁいいやと思える画像が1発目で出てきてよかった)。

1024×1024の画像生成におよそ3分かかっています。

3. まだリファイナーは使えていない?

今回のSDXLは「3.5Bのパラメータベースモデルと6.6Bのパラメータリファイナーから構成される革新的な新アーキテクチャに基づいて構築」されているようですが、今時点のAutomatic1111だとリファイナーを用いた2段階生成は使えず、ベースモデル単体での生成になってしまうようです。(一度txt2imgで作成されたものをimg2imgに飛ばして、modelでリファイナーを選択すれば使えるみたいです)

そういう意味ではまだ真価を発揮できていないようですが、どのぐらい伸びしろがあるのか楽しみですわね。

*なおバナーの絵はSD1.5で生成されたものです

この記事が気に入ったらサポートをしてみませんか?