漫画を描くならSDXL＋ControlNet FaceIDは必須かもしれない

2024年4月30日 16:35

最近、またStable diffusionで遊び始めました。

実は、SDXLが出たとき、VRAMが12GB以上ないと遊べないという噂を某サイトで読んで、VRAM 8GBのRTX2070しか持っていない筆者は、かなりガッカリしてしまったのです。
ソフトウェアがフリーで公開されているとはいうものの、つまるところ、文章生成だろうが、画像生成だろうが、生成AIで遊ぼうと思うと、ハードウェアに対してそこそこの金銭的な投資が必要なわけです。結局、AIの民主化だ何だといいながら、札束の投げ合いに勝った者だけが独占する状況は変わらないのだなと感じたからです。

もっとも、こちらはタダで使わせていただいている身なので、偉そうなことはいえませんから、黙って去るしかないか～と思っていたところ、なんと、VRAM容量が小さめのグラボでもSDXLを実行できるという話が、あちらこちらから出てきているではないですか。

これは、もしかして！？

試してみると、いけるいける！！
WebUI Forgeという省メモリー版でなくても、AUROMATIC1111 WebUIで問題なく動きます。VRAMが足りなくなると、ちゃんとDRAMにモジュール転送しながらVRAMを仮想的に40GBまで増量してくれました。
これ、Stable diffusionの方ではなくて、NVIDIAのCUDAドライバが賢くなったのですね。NVIDIA、意外に庶民の味方じゃん。
とりえず、ずっと試してみたかったSDXLとControlNetをいろいろいじってみました。

𝕏（旧Twitter）を眺めていると、画像生成AIを使って一枚絵のイラストを出力するのではなく、漫画を描いている方がかなり増えたように感じます。

ただ、2年ほど前に画像生成AIが一気に話題になって以来、ずっといわれている「絵が描けなくても漫画が描ける」という状況ではない様子。
むしろ、元々手書きで描ける人がAIを使っている印象です。しかも、便利だからというよりは、新しいものに興味があるからという感じで使われているようですね。
昔、Macintoshのクラリスワークスで漫画を描いている人がいましたが、そういう感じかもしれません。（違うか）

SDXLはやっぱり綺麗

とりあえず、SDXLのモデルをダウンロード
https://civitai.com/models/101055?modelVersionId=369130

漫画というよりは小説の挿絵っぽですが、ここにあったプロンプトを流用して生成した画像がこちら

プロンプト等は下記の通り

Intricate dynamic action shot of cowboy in a shootout, cinematic Steve Henderson Fabian Perez Henry Asencio Jeremy Mann Marc Simonetti Fantasy, red dead redemption 2 atmosphere, cinematic,
Negative prompt: (deformed iris, deformed pupils), text, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, (extra fingers), (mutated hands), poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, (fused fingers), (too many fingers), long neck, camera
Steps: 50, Sampler: Euler, CFG scale: 8, Seed: 123959878, Size: 1152x896, Model hash: e6bb9ea85b, Model: sdXL_v10VAEFix, Clip skip: 2, Refiner: sdXL_v10RefinerVAEFix [8d0ce6c016], Refiner switch at: 0.8, Version: 1.8.0-RC

ちなみに、Refiner: sdXL_v10RefinerVAEFixは、ここからダウンロード。
https://civitai.com/models/101055?modelVersionId=128080

なるほどー、これは確かにすごいかも……と思いながら、もう少し漫画寄りの絵の出力にチャレンジ。

いろいろ試して、こんな感じとか、

(8k, best quality, masterpiece:1.2), (extremely detailed 8k wallpaper), High contrast, minimalistic, colored black and grungy white, stark, dramatic, graphic novel illustration, cross hatching, a woman with a necklace on her neck in a city at night time with neon lights in the background, Artgerm
Negative prompt: unaestheticXL_Alb2, (worst quality:2), (low quality:2), (normal quality:2), low res, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, extra fingers, fewer fingers, strange fingers, bad hand, mole, ((extra legs)), ((extra hands))
Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 2615592596, Size: 1024x1024, Model hash: e3c47aedb0, Model: animagineXLV31_v31, Clip skip: 2, TI hashes: "unaestheticXL_Alb2: 6c1c4cfa35e9, unaestheticXL_Alb2: 6c1c4cfa35e9", Version: 1.8.0-RC

こんな感じも、

(8k, RAW photo, best quality, masterpiece:1.2), (realistic, photo-realistic:1.4), (extremely detailed 8k wallpaper), High contrast, minimalistic, colored black and grungy white, stark, dramatic, graphic novel illustration, cross hatching,, 20 years old Japanese woman in Shibuya.short hair, upper body <lora:animeoutlineV4_16:1> LINEART
Negative prompt: paintings, sketches, (worst quality:2), (low quality:2), (normal quality:2), low res, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, extra fingers, fewer fingers, strange fingers, bad hand, mole, ((extra legs)), ((extra hands))
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 2500833050, Size: 1024x1024, Model hash: 8ea2b6e4e2, Model: CHEYENNE_v16, VAE hash: 235745af8d, VAE: sdxl_vae.safetensors, Clip skip: 2, ADetailer model: face_yolov8n.pt, ADetailer confidence: 0.3, ADetailer dilate erode: 4, ADetailer mask blur: 4, ADetailer denoising strength: 0.4, ADetailer inpaint only masked: True, ADetailer inpaint padding: 32, ADetailer version: 24.4.0, Lora hashes: "animeoutlineV4_16: 9b0c9beb764d", Version: 1.8.0-RC

ま、なんか、いろいろできそう。VRAMのメモリーオーバーフローに悩まされることもなく、このあたりの画像を出力するならどうにかなるのかなという感じです。

ControlNetのFaceIDを使う

さて、漫画を描くとなると、こういういわゆるポン出し画像ばかり出力していたのではなかなか形になりませんよね。
いわゆるキャラクターを決めて、同じキャラクターにいろんなポーズをつけて出力しなくてはなりません。

ポーズの方は、ControlNetのOpenPoseでかなりコントロールできますよね。

DDosMixというモデルがイイ感じなので、雑誌のグラビアっぽい感じの画像を作ってみました。#StableDiffusion #AIart #AIイラスト #AIグラドル #ControlNet #openpose #DDosMix pic.twitter.com/CY86xhFo2D
— 久道秀作 (@KudoShusak) February 23, 2023

OpenPoseではいろいろ遊んでいました。

FaceIDを使うと、なんと、思った顔を出力できてしまうというではありませんか。これは試してみるしかないですよね。

早速、FaceIDで使うControlNetのモデルをダウンロードします。
https://huggingface.co/h94/IP-Adapter-FaceID/tree/main

末尾が "_sxdl.bin" となっているファイルをControlNetのモデルを入れるフォルダにコピー。更に末尾が "_sdxl_lora.safetensors" となっているファイルをLoRAのモデルを入れるフォルダにコピーします。

漫画を描くことを意識して、一旦、モデルは野火城氏おすすめの XeLblend 1（https://huggingface.co/cella110n/celblend）を使ってみます。

XeLblend 1はどんなモデルなのでしょうか。とりあえずプロンプトに "woman" とだけ入力してみます。

woman
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 4225316521, Size: 1024x1365, Model hash: 72182042fa, Model: XeLblend1.fp16, Clip skip: 2, Version: 1.8.0-RC

ちょっと手がアレですけど、エッジが割とはっきりとしたイラスト系の絵を学習しているのですね。

NegativeTI に BeyondSDXLv3 を指定してみます。

woman
Negative prompt: BeyondSDXLv3
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1213151364, Size: 1024x1365, Model hash: 72182042fa, Model: XeLblend1.fp16, Clip skip: 2, Version: 1.8.0-RC

ちなみに、BeyondSDXLv3 は、ここからダウンロードしました。
https://civitai.com/models/305043/beyond-sdxl-negative

なんか、すごいですね。ポン出しの画像を楽しむだけなら、もうプロンプトいらないですね。「プロンプトエンジニアが新しい職業になる」とか言ってたの、そんなに昔じゃないですよね。

漫画に使うことも意識してグレースケールで、年齢なども指定してみるとこんな感じ。

gray scale, 20y old woman, beautiful skin, upper body
Negative prompt: BeyondSDXLv3
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 17302750, Size: 1024x1365, Model hash: 72182042fa, Model: XeLblend1.fp16, Clip skip: 2, Version: 1.8.0-RC

これに線画LoRAを足してみます。
https://civitai.com/models/127018/lineaniredmond-linear-manga-style-for-sd-xl-anime-style?modelVersionId=177544

gray scale, 20y old woman, beautiful skin, upper body <lora:LineAniRedmondV2-Lineart-LineAniAF:1> lineart
Negative prompt: BeyondSDXLv3
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 17302750, Size: 1024x1365, Model hash: 72182042fa, Model: XeLblend1.fp16, Clip skip: 2, Lora hashes: "LineAniRedmondV2-Lineart-LineAniAF: 40b6d27be3a3", TI hashes: "BeyondSDXLv3: 7a11b7b2ad95, BeyondSDXLv3: 7a11b7b2ad95", Version: 1.8.0-RC

確かに、これは漫画向きのモデルですね。いい感じです。

ただ、このままだとモデルが得意な顔をどんどん出力してくるばかりで、キャラクターをコントロールするのが難しい。

そこで、FaceIDを使ってみます。

gray scale, 20y old woman, medium short hair, white skin, upper body, <lora:ip-adapter-faceid-plusv2_sdxl_lora:0.5>, <lora:LineAniRedmondV2-Lineart-LineAniAF:1> lineart
Negative prompt: BeyondSDXLv3, (nsfw), scratch, wound, scar, birthmark, dark mole, beauty spot, freckles
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1128966061, Size: 1024x1365, Model hash: 72182042fa, Model: XeLblend1.fp16, Clip skip: 2, ControlNet 0: "Module: ip-adapter_face_id_plus, Model: ip-adapter-faceid-plusv2_sdxl [187cb962], Weight: 0.5, Resize Mode: Crop and Resize, Low Vram: True, Processor Res: 512, Threshold A: 0.5, Threshold B: 0.5, Guidance Start: 0, Guidance End: 1, Pixel Perfect: False, Control Mode: Balanced, Hr Option: Both, Save Detected Map: True", Lora hashes: "ip-adapter-faceid-plusv2_sdxl_lora: 13623d29c464, LineAniRedmondV2-Lineart-LineAniAF: 40b6d27be3a3", TI hashes: "BeyondSDXLv3: 7a11b7b2ad95, BeyondSDXLv3: 7a11b7b2ad95", Version: 1.8.0-RC

ここで、FaceIDに読ませている画像は、下記からコピーしました。
https://www.pinterest.jp/pin/702420873146510852/
若かりし頃の吉永小百合さんです。

どうでしょう？
元々、モデル＋線画LoRAの持っている雰囲気を残したまま別のキャラができたように思えますが……

ちなみに、線画LoRA（LineAniRedmondV2-Lineart-LineAniAF）を使わないとこんな感じ。

gray scale, 20y old woman, medium short hair, white skin, upper body, <lora:ip-adapter-faceid-plusv2_sdxl_lora:0.5>
Negative prompt: BeyondSDXLv3, (nsfw), scratch, wound, scar, birthmark, dark mole, beauty spot, freckles
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1128966061, Size: 1024x1365, Model hash: 72182042fa, Model: XeLblend1.fp16, Clip skip: 2, ControlNet 0: "Module: ip-adapter_face_id_plus, Model: ip-adapter-faceid-plusv2_sdxl [187cb962], Weight: 0.5, Resize Mode: Crop and Resize, Low Vram: True, Processor Res: 512, Threshold A: 0.5, Threshold B: 0.5, Guidance Start: 0, Guidance End: 1, Pixel Perfect: False, Control Mode: Balanced, Hr Option: Both, Save Detected Map: True", Lora hashes: "ip-adapter-faceid-plusv2_sdxl_lora: 13623d29c464", TI hashes: "BeyondSDXLv3: 7a11b7b2ad95, BeyondSDXLv3: 7a11b7b2ad95", Version: 1.8.0-RC

元々、どちらかというとコーカサス系の女性を出力していたモデルですが、和風美人になっていますね。
FaceIDの効果は結構強力なようです。

生成AIを使って漫画を描くなら、FaceIDは使っていきたい機能ではないでしょうか。

画像生成AIで漫画を描く意味

さて、最近ふと気づいたのですが、𝕏（旧Twitter）を眺めていると、画像生成AIを使って漫画を描こうとしている方々の多くが、印刷された漫画のイメージで描かれているのですね。

これからは縦読み漫画だとか、世界は既にWebtoonに移行していて、日本だけが遅れているのだといっている人もいますが、先端技術である生成AIで作るのが、縦読み漫画ではなく、旧来の印刷された漫画の様式というところが大変面白いと感じています。

元々、紙の漫画のスタイルは印刷技術の発展と共に形作られてきたものです。印刷物が大量に刷られ消費される中で、雑誌という形式で大衆向けの安価な本が生産されるようになります。
日本では急速な経済成長と共に核家族化が起こり、子供を少なく産んで大切に育てようという風潮の中、子供にも雑誌を買い与えるようになり、漫画雑誌は子供向けの読み物として1970年代から1990年代に向かって一気にブームになっていきます。

安価に大量に作るために、その時々の印刷技術に合わせた絵柄が採用されていき、アメリカやヨーロッパのコミックの影響も受けながら、1980年代後半から1990年代にかけて、いまの漫画の様式が固まっていったようです。

1995年の『ドラゴンボール』連載終了で、一気に週刊少年ジャンプが売り上げを落とし、ファミコンに次ぐプレイステーションなどの次世代ゲーム機の登場や、インターネットの普及などもあいまって、漫画ブームは完全に終焉を迎えます。
もちろん、いまでも漫画文化は健在ですし、これからも続いていく文化だと思いますが、かつては毎週、少年ジャンプの発売日になると、大小を問わず各本屋本屋の前に、通行人の邪魔になるほど人が群がって立ち読みをしていた、あのブームの勢いはもうありません。

縦読み漫画を推している方々としては、スマホ時代に合わせたWebtoonで、もう一度、あのブームを呼び戻したいという思いがあるのでしょう。

いまの漫画の元となる連載漫画の歴史は、雑誌の大量生産と共に始まります。したがって、大衆向けのプロダクトとして読者にウケることが大前提となり、様々な実験的な作品が発表されながらも、常に読みやすさのふるいにかけられることになります。

その流れに従えば、雑誌全体の売り上げは落ちており、更に、既にスマホは十分普及しており、加えて漫画文化はまだまだ続くとなれば、雑誌離れした多くの読者がスマホで漫画を読みたいと思うはずで、これから発表される漫画はスマホの小さな縦長の画面に最適化された縦読み漫画に置き換わっていくはずです。そのほうが読者にウケる（はずな）のだから。

理屈ではそうなのだけれど、実際にはそうなっていない。AIで漫画を描こうという先端技術に敏感な方々が、縦読み漫画ではなく、従来の漫画の様式を選んで制作している。面白いですね。

漫画家の収益構造と出版社の事情

日本では、漫画家は連載中は儲からないといわれています。連載中に出版社から受け取る原稿料は儲かったといえるほどの金額ではなく、単行本になってからの印税収入や、キャラクターグッズが売れた後の版権収入が儲けの源泉になるのだという話です。

単行本を売らなければ、漫画家が生活できなくなり漫画業界が衰退するという状況で、一旦、縦読み漫画として制作してしまうと、単行本にするために再構成し直すのが出版社側として大変手間がかかる。つまり、実は出版社側が縦読み漫画を望んでいないということですね。

確かにこれは、縦読み漫画が一部の方々が想像するほどの勢いで普及していない理由の一端にはなりますが、この理屈だと、漫画ブームが去っても尚、市場のイニシアチブを出版社側が握っていることになり、いささか疑問が残ります。

漫画市場において、読者は常に弱者なのでしょうか？

同人誌文化への移行

日本の漫画文化において、同人誌の存在は無視できないと思うのですが、多くの漫画研究者の間では「同人誌には手を出すな！」といわれているようです。

なんせ、多種多様な同人誌が好き勝手に発行されており、そのほとんどが国会図書館に納本されているわけもありません。いくら同人誌が気になっても研究する手段がないというのが主な理由のようです。

なので、どんなに漫画研究が進んでも同人漫画の歴史や現状に関しては常に闇の中。詳細が解き明かされることはありません。

ただ、ほんの一時期ではありますが、「オタク文化」「オタク市場」などの言葉で、特別なこだわりを持って強く市場を買い支える人たちに対して、経済的な側面から研究めいたことを試みようという動きがありました。
この中で、同人誌は大くくりの「同人活動」「同人誌活動」として調査の対象になっています。

2005年に出版された「オタク市場の研究」（野村総合研究所）には、まず、オタク市場が形成されるためには、単に興味の対象を「収集」するだけではなく、「創造」と「コミュニティ」が必要だと書かれています。

「コミックオタク」の解説の中で、同人誌活動が「創造」と「コミュニティ」にあたり、国内では非常にこの活動が盛んであること。また、特徴として業界から半ば公認されていることを挙げた後、次のように分析しています。

『かつて「少年ジャンプ」が小中学生のバイブルといわれたように、コミックが再び子どもの圧倒的な支持を得るべく、大幅な拡大路線をとることは非現実的である。むしろ、多様化するコミック読者の嗜好に応えることが肝要であり、そのためには、嗜好要素の先導役としてのオタク層の活性化が必須である』

「オタク市場の研究」（2005年：野村総合研究所）P64-65

この本が出版されてから20年が経とうとしていますが、いまの日本の漫画市場を振り返ってみると、この本に書かれているとおり、同人誌活動を公認し、その中で読者であり作者でもある、多くの同人漫画家による新たな嗜好要素の開拓によって市場が支えられているとはいえないでしょうか？

「少年ジャンプ」が作った空前の大漫画ブームは去りましたが、その後の日本の漫画市場を支えているのは、実は同人誌活動だと考えてみてはどうでしょうか？

一般に、消費者は嗜好の変化が速く、これに対して、生産者は一度得た生産ノウハウをできるだけ再利用して同じものを作り続けようとします。

したがって、もしも、読者が漫画をただ読むだけの消費者であれば、雑誌が売れなくなって、読者の立場が相対的に強くなっている現状では、スマホで簡単に読める縦読み漫画に市場は素早く移行するはずです。読者の利便性が優先されますからね。

しかし、漫画市場のイニシアチブを握っている読者は消費者であると同時に、実は同人誌活動を介して熱心な生産者でもあるので、変化にブレーキがかかっているのではないでしょうか？
プロダクト（同人誌）に対して一度得た生産ノウハウをできるだけ再利用しようという、生産者としての心理的バイアスがかかっているわけです。

更に、同人誌活動を行っている人たちや、その予備軍が市場を支えているとすれば、オタク市場三要素の中の「収集」を行うために紙に印刷された単行本が求められ、上記の出版社側の事情も相まって、縦読み漫画への移行が鈍化していることも考えられます。

もし、そのような流れがあるとすれば、決してまだ使いやすい道具とはいえない生成AIを使って、漫画を描こうという「オタク的な活動」は、縦読み漫画よりも従来の印刷された漫画の様式に合うのかもしれません。

頂いたサポートは今後の記事作成のために活用させて頂きます。