stable diffusionのモデル「SDXL」を試してみた。

2024年1月20日 23:50

stable diffusionの画像をより綺麗にできるという「SDXL」モデルで画像を生成してみました。

今回は実際にどのくらい綺麗になるのか、検証してみたいと思います。

SDXLを導入する方法

導入前に確認すること

導入にあたり条件として、「stable diffusion」のバージョンが「1.6」以上であることが条件になります。
もしも、バージョンが「1.6」以前の場合は「コマンドプロンプト(macの場合はターミナル)」のstable diffuisonのディレクトリで、「git pull」と入力することで、バージョンを更新できます。

上記の様に出たら、「stable diffusion」を起動して、画面の最下部のバージョンを確認します。
「1.6」以上のバージョンになっていればオッケーです。

用意するもの

「SDXL」の導入にあたって必要なものが3つ(1つは任意)あります。
ダウンロードは以下のサイトで行えます。

baseモデル
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main
reflineモデル
https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/tree/main
VAE
https://huggingface.co/stabilityai/sdxl-vae/tree/main

それぞれのダウンロードが完了したら、「stable diffusion」の以下のフォルダに保存していきます。

・baseモデル、reflineモデル
「stable-diffusion-webui\models\stable-diffusion」以下にダウンロードした「Model」を入れてください。

・VAE
「stable-diffusion-webui\models\VAE」以下にダウンロードした「VAE」を入れてください。

使い方

今回は「txt2img」を使って、「SDXL」を試してみます。

モデルにダウンロードした「base」モデルを設定します。

次に「Settings」タブの中の左側のメニューの中に「VAE」とあるので選択します。
「SD VAE」という選択項目があるので、ダウンロードした「VAE」を選択します。
選択後「Apply settings」を押して準備完了です。

「txt2img」タブに移動して、プロンプトを入力します。
次に「Refliner」という項目があるので、選択します。
ここで、先ほどダウンロードした「refline」モデルを設定します。

「SDXL」で出力するときの画像サイズは「1024 x 1024」が良いそうです。

以下が実際に出力してみたときのプロンプトです。

ポジティブプロンプト
best quality, masterpiece, ultra high res, robot, beam saber, gundam, flying, wing parts, blue body, beam rifle, shield, shot rifle, fighting, fighting stance, planet

ネガティブプロンプト
worst quality, ugly, bad anatomy, jpeg artifacts, nsfw, text, watermark, bad hands, extra digit, fewer digits, bad anatomy, long_body, mutated hands, missing arms, extra_arms, extra_legs, bad hands, missing_limb, disconnected_limbs, extra_fingers, missing fingers, liquid fingers, ugly face, deformed eyes, cropped

以下が実際に生成された画像です。
カッコいいですね！！
ライジングフリーダムみたい。

ちなみに「VAE」をきちんと設定しないと画像が乱れてしまうので、「SDXL」を使うときは、必ず対応ものを選択してください。

以下は失敗例です。

SDXLと通常のモデルを比較してみた

人物

SDXL

v1-5pruned-emaonly.safetensors(Hires.fixを使用)

ポジティブプロンプト
best quality, masterpiece, ultra high res, 1 lady, from front, cowboy shot, enjoy, sparkle (in the eyes), beautiful detailed eyes, open mouth, tiara, hair accessory, side ponytail, long hair, blunt bangs, blue hair, wizard, dress, standing, starry pond

ネガティブプロンプト
worst quality, ugly, bad anatomy, jpeg artifacts, nsfw, text, watermark, bad hands, extra digit, fewer digits, bad anatomy, long_body, mutated hands, missing arms, extra_arms, extra_legs, bad hands, missing_limb, disconnected_limbs, extra_fingers, missing fingers, liquid fingers, ugly face, deformed eyes, cropped

風景

SDXL

v1-5pruned-emaonly.safetensors(Hires.fixを使用)

ポジティブプロンプト
best quality, masterpiece, ultra high res, (background only:1.5), mountain, lake, snow, day

ネガティブプロンプト
worst quality, ugly, bad anatomy, jpeg artifacts, nsfw, text, watermark, bad hands, extra digit, fewer digits, bad anatomy, long_body, mutated hands, missing arms, extra_arms, extra_legs, bad hands, missing_limb, disconnected_limbs, extra_fingers, missing fingers, liquid fingers, ugly face, deformed eyes, cropped

動物

SDXL

v1-5pruned-emaonly.safetensors(Hires.fixを使用)

ポジティブプロンプト
best quality, masterpiece, ultra high res, cat, brown color, american short hair, indoors, sleeping, morning

ネガティブプロンプト
worst quality, ugly, bad anatomy, jpeg artifacts, nsfw, text, watermark, bad hands, extra digit, fewer digits, bad anatomy, long_body, mutated hands, missing arms, extra_arms, extra_legs, bad hands, missing_limb, disconnected_limbs, extra_fingers, missing fingers, liquid fingers, ugly face, deformed eyes, cropped

モデルが違うので、比較にならないかもですが、「SDXL」の場合は画像がおかしくなることがほとんどありませんでした。

また、どちらも高画質になりましたが、「SDXL」に対応した他のモデルを使った場合はまた別の結果が出るかもしれません。

設定もほとんど変えていないので、設定次第では更に高画質なイラストを生成することができそうです！

使ってみた感想

めちゃくちゃ高画質になってドキドキしました。
ただ、今使っているPCのグラボのVRAMが12GBしかないので、グラボを買い替えたくなりますね。

今のところ止まったりはしていないので、高画質な画像を出すために使い倒したいと思います！

それでは皆様楽しい創作ライフを…。

この記事が気に入ったらサポートをしてみませんか？