見出し画像

あなたのDALL-E 3の使い方、間違えてない?

はじめに

私が記事に使っている生成画像は、ChatGPT  PlusのDALL-E 3を使って生成したものなの。

例えば、この記事のカバー画像。
みんなならどんなプロンプトを使う?

「アニメ調の女の子で、髪は紫で...」

みんな、当然のように「アニメ調」という言葉を使っているけど、それが本当に最適解?

ちなみに、私がDALL-E 3生成している画像のプロンプトには「アニメ」「漫画」「イラスト」「日本」「ゲーム」「著作者名」と言ったキーワードは一切含まれていないよ。

今回は画像生成AIというものの仕組みから、最適なプロンプトを考察していくよ。


DALL-E 3って?

DALL-E 3はOpenAIが開発・提供している画像生成AIだよ。
文章にも対応しているように見えるよ。
(文章というより短文の集まりが正解?)

DALL-E 3はインターネット上に公開されている著作物を集めて、無差別に近い形で学習されているみたいでね。
版権のキャラクターや商標ロゴ、学習元にほぼ一致するものまで生成出来てしまうから、AI側には一部規制が設定されているよ。

中には規制を回避して、ピカチュウの画像を生成しちゃう人もいるの。

ところで、「ピカチュウ」と入力したら「ピカチュウ」が表示されるって不思議だと思わない?

画像生成AIは学習の際に、画像と共に文字も学習させることがあってね。
ピカチュウが表示されたのは、ピカチュウの画像をピカチュウという文字と共に大量に学んだから出来る芸当なの。


みんなのプロンプトは間違っている

ピカチュウの話を理解できた人なら分かると思うけどね。

例えば、自分の考えるアニメ調なイラストを出力したい時、アニメ調と描いて出力されると思う?

アニメ調と入力すると不安定な結果だったり、日本のアニメより海外のイラストやリアルよりになると思うの。
実はこれ、範囲が広すぎるプロンプトだからノイズになっちゃっているのよ。

画像生成AIは特徴から学ぶけど、アニメ調で登録されている画像に共通した特徴は少ないから……不安定になりやすいよね。

他にもあるよ。

プロンプトに説明をだらだら書く人がいるでしょう?

それ、助長過ぎないかな?
確かに人間が聞く分にはわかりやすいけど、AIにはノイズだらけじゃないかな?

画像生成AIのプロンプトに重要なことは、AIにノイズを出来るだけ与えずに出力させることだと私は思うよ。


プロンプトの正解は?

正解は無いよ。

でも今回は私のプロンプトのアプローチ(考え方)を説明するね。

アニメ調と書く人は、絵柄を指定したいと考えていると思うけど、前述の通りDALL-E 3に絵柄の指定は難しいよ。

でも絵柄を間接的に指定する方法があるよ。

みんなはイラスト投稿サイトを見たことある?
イラスト投稿サイトを見ていると、時期によって流行りの絵柄があるよね。
それを利用するよ。

私のプロンプトでは、絵柄の指定に「年代(時期)」と「媒体(投稿サイト、ライトノベル、ゲームジャンル等)」を指定しているよ。

画像と共に学ぶ文字に、その画像が作成された時期や掲載されていた場所の名前が入ることが多いから、この手法にすれば求めている絵柄を出力しやすくなるよ。

キャラクターの設定は、パーツの特徴をキーワードだけで情報を与えているよ。
必要なことはノイズを与えないことだから、最低限でOKだよ。

・絵柄は間接的に指定する
・指定は最低限にする

この2つを守れば安定して出力ができるよ。


まとめ

当たり前を疑うこと、画像生成AIを理解することは、画像生成AIを使う為に必要なことだよ。

他の人の真似をして満足してしまうのではなく、理解した上で使いこなせるようになろう!!


今後も本音だけで記事を書いていくよ!!
noteと旧Twitterをフォローしてくれたら嬉しいです!!
旧Twitter: https://x.com/1tr_j/


この記事が気に入ったらサポートをしてみませんか?