AIを活用した絵本生成の最大の壁「キャラクターの統一」を何とかしたい。

2023年11月29日 00:50

はじめに

最近のAI技術の進化は目覚ましく、特にクリエイティブな分野での活用が注目されています。
中でも、DALL-E 3などのAIを用いたイラスト生成技術は、驚くほどリアルで魅力的な画像を生み出しています。
しかし、これらの進化したツールを使って子供向け絵本を作る際に直面する大きな問題があります。

それは、「キャラクターの統一感」の維持です。
これまで画像生成を使って2作品を出版までこぎつけることができたわけですが、ほんとにこの問題死活問題なのですよね。。

1作品目↓↓は、プロンプトをゴリゴリ近づけたり、イラスト生成しまくったりで何とかして。笑

2作品目↓↓は、同一のキャラクターが登場しないような絵本の構成にして、ちょっと逃げて。笑

この記事では、AIを使った絵本生成におけるこの課題と、それを解決する方法について掘り下げていきます。

1. キャラクターの統一感の重要性

子供向けの絵本において、キャラクターの見た目の一貫性は非常に重要です。というか、こういったストーリー性をもつ作品すべてにいえることではありますが。。
キャラクターがページごとに異なる外見をしていると、子供たちは混乱し物語の流れに集中できなくなるだろうし、親(大人)もその作品のクオリティを疑ってしまいますよね。
一貫性のあるキャラクターは、子供たち、ひいてはその親御さんにも安心感を与え、物語に深く没頭させる要素となります。

2. AIを使ったイラスト生成の現状

DALL-E 3のようなAIツールを使用すると、詳細な指示に基づいて様々なイラストを簡単に生成できます。
しかし、これらのツールはそれぞれのリクエストを個別に処理するため、異なるリクエスト間でキャラクターの外見を一貫させるのは難しいという問題があります。
この問題、もう少し深掘って、ChatGPTを問い詰めることにします。笑

AIツールで画像を生成する際に異なるリクエスト間でキャラクターの外見を一貫させるのが難しい理由はいくつかあります。

ランダム性と解釈の幅広さ: AI画像生成ツールはテキストの説明を基にして画像を生成しますが、同じ説明でも解釈の幅が広いため、異なる結果が生じる可能性があります。たとえば、「笑っている若い女性」の説明から、異なる顔、髪型、表情などが生み出されることがあります。
詳細な指示の欠如: より一貫した結果を得るためには、非常に具体的かつ詳細な説明が必要です。しかし、多くの場合、ユーザーはそこまで詳細な指示を与えません。
AIモデルの学習過程: AIは多様なデータセットを基に学習しており、そのために多種多様な結果を生み出すことがあります。一貫したスタイルや特徴を持つキャラクターを生成するには、AIが特定のスタイルや特徴を認識し、それを維持するように訓練される必要があります。
技術的限界: 現在のAI画像生成技術は進化していますが、完全に一貫した外見を持つキャラクターを生成することは依然として技術的な挑戦です。これは、AIが各リクエストを新たな創造プロセスとして扱うためです。

これらの理由により、異なるリクエスト間でキャラクターの外見を一貫させるのは難しいのです。

プロンプト「なぜ、AIツールでの画像生成において、異なるリクエスト間でキャラクターの外見を一貫させるのは難しいのでしょうか。」

なるほど、イラストの一貫性を持たせることの難しさはなんとなくわかりました。。
ただ、絵本の各ページでキャラクターが異なる外見をしていたら、物語性や一貫性が損なわれてしまいます。
何とかなる方法は無いのでしょうか。

3. gen_idの活用

gen_idって？

DALL-E 3には、生成されたイラストに固有のgen_idが割り当てられるという特徴があります。このgen_idを活用することで、一度生成したキャラクターの「バリエーション」を作成する際に、外見の一貫性を保つことができます。具体的には、最初に作成したキャラクターのイラストのgen_idを用いて、異なる背景やアクションで同じキャラクターを描くことができるということです。

gen_idとseedとの違いは？

ちなみに他にもキーワードとして「seed」をよく耳にします。そちらとの違いもChatGPTに聞いてみましょう。

gen_idとseedは、画像生成技術において異なる目的で使用されます。ここでその違いを説明します：gen_id（生成ID）:
gen_idは、特定の画像生成ツール（例えばDALL-E）によって生成された特定の画像に対して割り当てられる一意の識別子です。
このIDを使って、その特定の画像のバリエーションや修正版を生成することができます。例えば、同じキャラクターやオブジェクトを異なる背景やポーズで再生成する際に使用します。
gen_idは、生成された特定の画像と直接関連しており、その画像の「派生物」を作成するために使用されます。
Seed（シード値）:
シード値は、乱数生成アルゴリズムの初期値として機能します。画像生成において、シード値は生成プロセスのスタートポイントとなります。
同じシード値を使用すると、同じ乱数のシーケンスが生成され、結果として同じまたは非常に似た画像が得られる可能性があります。
シード値は生成プロセス全体に影響を及ぼし、異なるシード値を使用すると、異なる結果が生じます。

簡単に言えば、gen_idは特定の生成された画像に対して使用され、その画像の派生バージョンを作成するのに役立ちます。一方、シード値は生成プロセスの開始点を決定し、同じシード値を用いることで一貫した結果を得ることができます。

プロンプト「genidとseedの違いを教えて」

gen_idを用いたキャラクターの統一性確保の方法

そしたら、もう少し具体的な手法について聞いてみることにしましょう。

DALL-E 3を使って子供向けの絵本のイラストを生成する場合、キャラクターの統一感を保つために`gen_id`を上手に利用することが重要です。以下にそのプロセスを説明します：

1. **最初のキャラクターのイラストを作成**：
- まず、絵本の主要なキャラクターに関する詳細なプロンプトを作成します。キャラクターの外見、性格、服装などを詳細に記述します。
- このプロンプトを使ってDALL-E 3で最初のキャラクターイラストを生成します。

2. **生成されたイラストのgen_idを記録**：
- 最初に生成されたイラストには、固有の`gen_id`が割り当てられます。この`gen_id`を記録しておきます。

3. **追加のイラストを生成する際にgen_idを使用**：
- 絵本の他のページのイラストを生成する際にも、この`gen_id`を使用します。プロンプトには新しいシーンやアクションを記述しますが、`gen_id`を参照することで、同じキャラクターの外見を保ちながら異なる背景や状況で描くことができます。
- 例えば、「同じgen_idのキャラクターが海辺で遊んでいる」といったプロンプトを使用することで、異なるシーンであってもキャラクターの外見の統一感を保つことができます。

この方法により、各ページで異なるシーンやアクションを描きながらも、キャラクターの外見を一貫して保つことが可能です。絵本全体でキャラクターの一貫性を保つことは、子供たちが物語に没入しやすくする上で重要です。

プロンプト「子供向けの絵本のイラスト生成をDALL-E3で行いです。絵本は、キャラクターの統一感が必要になります。このgen_idを活用した画像生成プロセスを考えてください。」

はじめにキャラクターを中心としたイラストを固めてしまって、そのgen_idを記録・使いまわす形で外見を保つと。

※キャラクターが2人の場合は？

それぞれイラスト生成のうえ、gen_idを控えておけば、後々イラストで共演することはできるか？とも考えたのですが、以下の通り回答が返ってきました。だめなんですって～

複数のキャラクターを一枚のイラストに登場させる際にDALL-E 3のgen_idを用いる方法は、現在の技術では直接的には実現できません。gen_idは特定の画像のバリエーションを作成するために使われますが、異なる画像のキャラクターを組み合わせるためには直接使えません。

プロンプト「複数のキャラクターを一枚のイラストに登場させるにはどうしたらいいですか？ gen_idを用いた方法を教えてください」

おわりに

今日の記事、イラスト統一の重要性から、Gen_idについて、Gen_idを活用したイラスト生成のプロセス等をChatGPTに質問・回答してきたやり取りをまとめてみました。

近いうちに実践編を投稿したいと思いますので、ぜひ楽しみに待っていてください。。

この記事が気に入ったらサポートをしてみませんか？