見出し画像

MidjourneyとStable DiffusionとDALL-E3を比べてみた 002

【Prompt】
wild boar


Midjourney #001

Midjourney #001

Stable Diffusion #001

Stable Diffusion #001

DALL-E3 #001

DALL-E3 #001

【評価】
・Midjourneyは、写真や絵画など様々なSeedから多様な出力を作成している。
・Stable Diffusionは1つのSeed画像をベースに画像を生成しているため、4つの出力が似通っている。
・DALL-E3の画像1枚(1792×1024 pix)の出力時間は約25秒(=13.6秒/Mpix)、Midjourney4枚分(2912×1632 pix、1枚当たり1456×816)は約37秒(=7.8秒/Mpix)。画素数当たりでは、Midjourneyの方が約2倍の速度。この速度が平均的な速度なのか、混んでたりする中での数値なのかはまだわからない。

【考察】
・Wild boar(イノシシ)は、画像生成AIの開発の中心である英語圏の画像をベースに作られているから、「学習データが少なくてうまく出力がされないのでは?」と期待して作ってみたが、一応イノシシが出力された。
・Midjourneyが良いGPUを使っているからなのか、AIモデルの優秀さで速度が速いのかはわからないが、MidjourneyのAIモデルは「ちょっとズルい」AIモデルを使っているから早いのではと感じている。「ズルい」というのは、純粋な拡散モデルではなく、「まず最初に近い画像を探しに行っている」という意味。

【条件】
●Midjourney V6
wild boar --ar 16:9

●Stabel Diffusion realisticVisonV51_v51VAE.safetensors
Prompt: wild boar
Width: 320, Hight: 180, Hires.fix, Refiner
Batch count: 4, Batch size: 1
Samplling method: DPM++ 2M Karras
Sampling steps: 20
CFG Scale: 7

●DALL-E3
wild boar --ar 16:9


【Prompt】
anime style, a kingfisher, flying, rainbow feathers, yellow head, pink tail


Midjourney #002

Midjourney #002

Stable Diffusion #002

Stable Diffusion #002

DALL-E3 #002

DALL-E3 #002

【評価】
・Midjourney、Stable Diffusionいずれも、「yellow head」を再現できなかった。
・Stable Diffusionは、「rainbow feathers」に対して、背景が「rainbow」だったり枠が「rainbow」だったりする。勝手な解釈が得意そう。
・DALL-E3だけ「yellow head」になった。やっぱり、プロンプトの忠実性はDALL-E3が高そう。DALL-E3賢いぞ!

【考察】
・Kingfisherは、「青い鳥」で学習されることが多く、学習されたベースが「青」と強く結びついていると考えられる。AIであっても、「yellow headと言われてもね」と考えているのか?
・ちなみに、「yellow head」を再現できなかったものの、「black head」は頭が黒くなった。これは、「ヤマセミ」のボディが黒いため、Kingfisherの中には黒いものがいるという学習結果がある程度あるためではないでしょうか。どう思います?
・「red head」の場合は、一部頭が赤くなったものの、「別の赤い頭の鳥から借りてきたの?」という感じになっています。

Midjourney #002 - anime style, a kingfisher, flying, rainbow feathers, black head, pink tail
Midjourney #002 - anime style, a kingfisher, flying, rainbow feathers, red head, pink tail

【条件】
・Midjourney V6
anime style, a kingfisher, flying, rainbow feathers, yellow head, pink tail --ar 16:9

・Stabel Diffusion realisticVisonV51_v51VAE.safetensors
Primpt: anime style, a kingfisher, flying, rainbow feathers, yellow head, pink tail
Width: 320, Hight: 180, Hires.fix, Refiner
Batch count: 4, Batch size: 1
Samplling method: DPM++ 2M Karras
Sampling steps: 20
CFG Scale: 7

・DALL-E3
anime style, a kingfisher, flying, rainbow feathers, yellow head, pink tail --ar 16:9



この記事が気に入ったらサポートをしてみませんか?