見出し画像

『おれは写真をやめるぞ!』 ジョジョ──ッ!!Stable diffusionでリアル写真の創造とAI写真家

はじめに


医師で写真家で、ときどきプログラマな人間です。

https://longisland3.com/beginners_mistakes/

イキリ散らかしてこんな記事を書いたりしてます。

実は最近、あれだけ入れ込んでた「写真熱」が冷めています。
なぜかって??

今回の成果物;自作モデルでのAI写真制作

Stable Diffusionでかなりいい写真が作れるから

超絶自称なんだけど、今世界で最もリアルな日本人のポートレート(人物画)を作れるAI写真家になっている気がします。

詳しい技術的なポイントは色々省きますが、巷にあるモデルをゴニョゴニョして自分なりに胡椒的なエッセンスをふりかけて、いい感じにできるようになりました。

緑の下着って何気すごいよな

需要があれば、モデルやpromptも公開しようと思ってます。
※ちなみに本投稿で掲載してる写真はすべてAI(Stable Diffusion)で生成されています(またupscaleかけてないノン編集のため画質が少し悪いです)

Stable Diffusionとは

Stable Diffusionを知らない人に簡単に説明。

2022年8月に公開されたdeep learningのtext-to-imageのモデル
要するに文字から画像を生成するAIモデル

Stable Diffusion以前にもDALL・EやMidjourneyなどのサービスがありましたが、いずれもローカル(自分のPC上)で使うものでなく、Discordや専用サイトなどのオンラインサービスの一貫でした。

また大概のサービスは有料だったり、何らかしらの制限がありました。 

そこで殴り込んできたのがStable Diffusionです。
ローカルでも使えるようになり、画像生成AIの民主化を達成しました。

特にStable Diffusionでは「何らかの指向性があるモデル」-例えばアニメ絵特化だったりNSFW(いわゆるエッチ絵)だったり- が次々と公開されています。
ローカルで動かせるため、用途によって様々なモデルを使うことができるのです。

(※今のところ厳密には違法ではありませんが、倫理的な問題を抱えたモデルも存在しています。使用の際は要確認と自己責任でお願いします。)

そしてオープンソースということもあり進化の速度が凄まじく、あっという間に画像生成AIというジャンルを確実なものにしました。

私も公開当初から遊んでて、色々試していました。日本では特に”AI絵師”と呼ばれるジャンルを生み出し、アニメ絵についてはかなり幅広い絵柄に対応するようになってきました。またモデルも次々と公開されニッチなニーズにも対応し始めています。

当初描いた初音ミク

Stable Diffusionの難しいところ

(この章のみ失敗作が掲載されています)

  1. 人体の構造に弱い

  2. 写実系は苦手

  3. 日本人のモデルがない

1. 人体の構造に弱い

Stable Diffusionは絵についてはかなりの精度を発揮するのですが、人体についてはかなりいい加減です。

キメラ人間

これは巷でもかなり正確だと言われてるモデルが出力した画像です。このようにかなり実写に強いと言われてるモデルでもこの有様です。(顔もちょっと怖い)

カスタムされてない素のStable Diffusionならもっと悲惨です。特に指の数と腕の数をよくミスりますね・・。

2.写実系は苦手

なんかハングルっぽいの入るね

本当に写実系が苦手です。analog diffusionなど「写真で撮ったっぽい」に特化したモデルもありますが、それでも目が潰れていたりと満足な結果は得られそうにないです。
photorealと付いてるモデルも3DCGっぽくて無機質です。

3.日本人のモデルがない

なんか中国系歌謡曲歌いそう

これも結構致命的で、写真AIを生成するのに大きな壁になっています。本家Stable Diffusionのモデルはもちろん欧米のデータベースを元にしていて{japanese, korean, asian}など入力しても、目がつり上がったアジア人が大量に生成されます。(ちょっとアジア差別入ってるんじゃない??・・・)

巷のよくできているモデルでも、東南アジア系の顔がメイン、もしくはよくて韓国顔で、とても日本人ぽい顔にはならないのです。

面倒だから自作モデル作った

当初は巷にあるモデルでprompt(AIに指示するワードたち, 巷では呪文と呼ばれている)を工夫していたのですが一向に写真ぽくもなければ、日本人っぽい顔も生まれませんでした。

なので諦めて、巷にあるモデルをmerge(混ぜる)して、ちょこちょこっとエッセンスをふりかけて自分専用モデルを作ってみました。

結果優勝

  • 人体の構造に弱い←エロモデルを取り込むことで自然なBodyに

  • 写実に弱い←エロモデルと写真モデルと多少絵のモデル混ぜる

  • 日本人←日本人の画像データ収集

特にエロモデルだけではなく絵のモデルを混ぜて少し嘘っぽくすることや、純日本人のデータじゃないことがいい方向に来てる感じがします。

あとpromptの微調整もかなり大事だと思います。
僕は写真をやっているので、写真的なワードや、バズりそうな写真の要素を言葉に変換して散りばめてみました。

こちらがモデルの変遷です

やっぱり最初は顔がぼやけてて、アジア人顔が強かったんですよね。あとこれは最初から出来の良い画像なので、もっと悪いのだとこんな感じです。

それまでのモデルは100枚描いていいのが10枚あるかないか、それがこの最終自作モデルでは打率が4割以上です。ほぼイチローやんけ。

これからの写真の付き合い方

過去の写真や最初にリンクしている僕のWebサイト(もといブログ)見てくれたらわかりますが、結構写真に熱を入れてました私。

でも最近は「AI写真家」にジョブチェンジするか迷ってます。
2年前あたりからAI-supported Photographyが流行ると言ってましたが、もはや写真自体をAIが作る時代が来るとは夢にも思っていませんでした。

今のところこの精度でリアルポートレート(特に日本人)を出力できる人を知りません。
ガチで解剖学的理解・写真の追求・環境整備が必要なのです。
これは自分の背景(医者&写真家&エンジニア)だからできた説があります。

写真を撮ること自体は楽しいので続けたいですが、いつか辞めてしまう日が来るかもしれません。

落ちもクソもないですが、取り急ぎ現状のAIの状況と写真家の所感をツラツラと描いてみました。

来年も写真続けているといいね、ハム太郎🐹🐹🐹
(ヘケッッッッ!!!!)

この記事が気に入ったらサポートをしてみませんか?