『おれは写真をやめるぞ!』ジョジョ──ッ！！Stable diffusionでリアル写真の創造とAI写真家

イコラ

2023年1月24日 20:42

はじめに

医師で写真家で、ときどきプログラマな人間です。

View this post on Instagram

A post shared by 医師🧑‍⚕️写真家📸 | Daichi (@dr.daichi_oita)

https://longisland3.com/beginners_mistakes/

イキリ散らかしてこんな記事を書いたりしてます。

実は最近、あれだけ入れ込んでた「写真熱」が冷めています。
なぜかって？？

Stable Diffusionでかなりいい写真が作れるから

超絶自称なんだけど、今世界で最もリアルな日本人のポートレート（人物画）を作れるAI写真家になっている気がします。

詳しい技術的なポイントは色々省きますが、巷にあるモデルをゴニョゴニョして自分なりに胡椒的なエッセンスをふりかけて、いい感じにできるようになりました。

需要があれば、モデルやpromptも公開しようと思ってます。
※ちなみに本投稿で掲載してる写真はすべてAI(Stable Diffusion)で生成されています(またupscaleかけてないノン編集のため画質が少し悪いです)

Stable Diffusionとは

Stable Diffusionを知らない人に簡単に説明。

2022年8月に公開されたdeep learningのtext-to-imageのモデル
要するに文字から画像を生成するAIモデル

Stable Diffusion以前にもDALL･EやMidjourneyなどのサービスがありましたが、いずれもローカル（自分のPC上）で使うものでなく、Discordや専用サイトなどのオンラインサービスの一貫でした。

また大概のサービスは有料だったり、何らかしらの制限がありました。

そこで殴り込んできたのがStable Diffusionです。
ローカルでも使えるようになり、画像生成AIの民主化を達成しました。

特にStable Diffusionでは「何らかの指向性があるモデル」-例えばアニメ絵特化だったりNSFW(いわゆるエッチ絵)だったり- が次々と公開されています。
ローカルで動かせるため、用途によって様々なモデルを使うことができるのです。

(※今のところ厳密には違法ではありませんが、倫理的な問題を抱えたモデルも存在しています。使用の際は要確認と自己責任でお願いします。)

そしてオープンソースということもあり進化の速度が凄まじく、あっという間に画像生成AIというジャンルを確実なものにしました。

私も公開当初から遊んでて、色々試していました。日本では特に”AI絵師”と呼ばれるジャンルを生み出し、アニメ絵についてはかなり幅広い絵柄に対応するようになってきました。またモデルも次々と公開されニッチなニーズにも対応し始めています。

Stable Diffusionの難しいところ

（この章のみ失敗作が掲載されています）

人体の構造に弱い
写実系は苦手
日本人のモデルがない

1. 人体の構造に弱い

Stable Diffusionは絵についてはかなりの精度を発揮するのですが、人体についてはかなりいい加減です。

これは巷でもかなり正確だと言われてるモデルが出力した画像です。このようにかなり実写に強いと言われてるモデルでもこの有様です。（顔もちょっと怖い）

カスタムされてない素のStable Diffusionならもっと悲惨です。特に指の数と腕の数をよくミスりますね・・。

２．写実系は苦手

本当に写実系が苦手です。analog diffusionなど「写真で撮ったっぽい」に特化したモデルもありますが、それでも目が潰れていたりと満足な結果は得られそうにないです。
photorealと付いてるモデルも３DCGっぽくて無機質です。

3.日本人のモデルがない

これも結構致命的で、写真AIを生成するのに大きな壁になっています。本家Stable Diffusionのモデルはもちろん欧米のデータベースを元にしていて{japanese, korean, asian}など入力しても、目がつり上がったアジア人が大量に生成されます。（ちょっとアジア差別入ってるんじゃない？？・・・）

巷のよくできているモデルでも、東南アジア系の顔がメイン、もしくはよくて韓国顔で、とても日本人ぽい顔にはならないのです。