見出し画像

(雑記)検索キーワードと出力する空間の話

こんにちは!特許調査の仕事をしてます、酒井といいます。
この記事は
 ・Googleとかの検索に使う「キーワード」と
 ・生成AIに送る指示とか「出力する空間」
について書きます。 下記記事の続き的な位置づけです。

上記記事の最後では、こんな事を書きました。

AIを使って「おお!」と感心するような答えを引き出したい場合は

質問文入力の段階で ”頭のいい質問”をするとか、
既視感の薄い、独創的な質問文を作った方が
「おお!」って感じられる答えが出やすそう、と思いました。
・・・これって考えてみたら
検索エンジン(Googleとか)に検索語を入れる技術と似てますよね!

大規模言語モデル(LLM)は無限にある言葉 × 質問文(入力文)の中から
一番確率の高い単語を繋げて回答しているので
「普通っぽい質問」をしたら、普通っぽい出力が返される可能性が高い
って事でした。

Web検索と入力語(検索語)

一方、一般的な検索エンジンでも似たような事がありますよね。
入力によって出力がガラッと変わってしまう現象です。
次の画像をご覧ください。

左は「マンホール」右は「人孔」で検索して、
ヒットした画像を比較しました。
どちらも同じ物を指す言葉ではありますが
「マンホール」では誰もが目にする「蓋」の部分がヒットしやすく
より専門的な表現の「人孔」は、地下構造も多くヒットします。

ということは・・・
多分、マンホールについて特許調査や先行文献調査をするなら
「人孔」という検索語も知っていた方が有利に働くと思われます。

上記は
「普通の検索も入力キーワードに結構左右されるよね!」という例でした
次は
「生成AIを使う時も、入力文で出力結果が規定されるよね」
という話をします。

先に結論

・・・的なものです。最近はこんな事を考えてます。

・定型的、反復的な業務をAIで効率化するのなら
 質の良い教師データ、とか 良くできたプロンプト(入力文)が
 有効に働きそうなんだけど
・情報検索業務は反復性がそこまで高くないはず。
 毎回調査対象(技術内容とか商品情報とか)が変わるのが普通なので。
 なので教師データとかプロンプトの雛形も使いにくいかも・・・?
  とはいえ
・とりあえず生成AIを使うには「適切な入力文」を作る技術が必要
・けど、その「入力文」を作るのが難しい!
・「適切な入力文作成にAIの力を借りる」のもアリだと思う。
 方法論・雛形も”ある程度”までは作れるんじゃないかなぁ。

現時点での結論を書いたところで
以下、のんびり書いていきます。
タイトルに書いた通り「雑記」です。よろしくお願いします。

出力する空間(画像生成)

仕事でよく使う(であろう)テキスト生成からは少し離れますが
ChatGPT4には「画像生成」の機能があります。 (2024-03時点)
入力はテキストだけでも、画像+テキストにもできます。

ということで、ChatGPT4にひとつイラストを頼んでみました。
イラストを頼む = 入力文 です!
最初の例なので「あえて 出力の方向を絞らない」指示をしています。

出力された画像はこちらです。
アヒルの数はかなり増えましたけど「無難に描けてる」感じですよね

もちろん 大規模言語モデルと画像生成という違いはありますが、
以下、「直感的なわかりやすさ」重視で
  入力 = テキスト  出力 = 画像
の例で説明していきます。

大規模言語モデル(LLM)は無限にある言葉 × 質問文(入力文)の中から
一番確率の高い単語を繋げて回答している

ということで、
出力の方向性を絞らない場合、上記画像のように
「THE・普通」「THE・無難」「余分な属性の加わっていないアヒルの絵」
を返してくれる可能性が高い、と思われます。

なので「余分な属性の加わっていないアヒルの絵」を求めていたら
上記の出力でOKですけど、
もしも、内心
「AIにイラスト頼んだら良い感じに背景とか加えて
 そんなに写実的でもないイラストを描いてくれるんだろうな・・・」

こういう絵柄とか?

とか思ってたら
「AI、全然思ってるようなイラスト描いてくれなーい!」
ってなると思います。(苦笑)

しかし、AIって「入力もしていない こちらの意図」を
汲み取って動くのは無理なので、上のような絵柄を作りたかったら
「背景を加えて」「桜の木と針葉樹と建物」とか
「マンガのようなタッチで」とか、指示を加える必要があるんですよね
このような指示を加える事を

「出力する空間を絞る」と言う(らしい)

のです。私も最近覚えました!笑

以下、Xにわかりやすい画像があったので引用です。

https://twitter.com/bukuta_3/status/1636834862505275393
https://twitter.com/bukuta_3/status/1636834862505275393

以下は先ほどの「あひるの写真」起点のイラストです。
「出力する空間を絞ったり変えたりすと、
こんなに出力結果が変わるよー!」という例です。

「入力文の重要さ」が伝わると嬉しいんですが、
でもでも お遊びなので、どうぞ気軽にご覧ください。

入力画像はこちらです

■入力文
この画像を元にイラストを描いてください。
・ルネサンス絵画の様式で
・自然あふれる公園の中の風景
・横長でお願いします

(ChatGPT4/DALLE) ルネサンス様式の絵画で表現された自然豊かな公園の中を歩く一列の白いアヒルのイラストが完成しました。どうぞご覧ください。

・19世紀アメリカ絵画の形式で
・農場の風景
・横長でお願いします

(ChatGPT4/DALLE)  19世紀のアメリカ絵画スタイルでの農場風景に白いアヒルを描いたイラストをご提供します。お楽しみいただければ幸いです。

・RPGビデオゲーム画面のスタイルで
・中世ヨーロッパの世界観
・大きめのピクセルで
ピクセルアートを描いてください。 横長でお願いします。

(ChatGPT4/DALLE)  RPGビデオゲーム画面スタイルのピクセルアートをお作りしました。中世ヨーロッパの世界観を表現しています。

可愛いですね!
スチームパンク的なスタイルは描けますか? 横長でお願いします。

(ChatGPT4/DALLE)  スチームパンクスタイルのイラストが完成しました。アヒルたちがそれぞれ独創的なスチームパンク装備を身につけ、賑やかな街並みを歩いている様子をお楽しみください。

香港のネオンサインのようなスタイルも描けますか?
横長でお願いします。

(ChatGPT4/DALLE)   香港のネオンサインスタイルでアヒルを描いたイラストが完成しました。華やかな夜の街並みを背景に、ネオンで飾られたアヒルたちが行進している様子を表現しています。

アール・ヌーボー形式も見てみたいです!
花をあしらったデザインでお願いします。横長で描いてください

(ChatGPT4/DALLE)   アール・ヌーボースタイルに花をあしらったデザインで描いたアヒルのイラストがこちらです。

画像生成AIとの遊びは以上です!

同じ入力画像を使っていても
出力する空間(「イラストのスタイル」に相当)を変えると
大幅に出力結果が変わる例、でした。

テキスト情報の出力だと、
直感的には違いを判別しにくいかもしれませんが
やはり、同じような現象が起きている、と考えられます。

今日のまとめ:適切な入力語(文)で出力する空間を絞る

今日の雑記では
  前半:Google検索で 「マンホール」と「人孔」
  後半:ChatGPT4/DALLEで 「画像生成の出力空間を絞る/変える」
例をそれぞれ扱いました。

これは特に画像生成で遊んでいる時に感じたのですが
出力空間を指定するやり方って、無数にあると思うんですよ

「ルネッサンス」とか「印象派」のように、
教科書に載っているような様式もありますし、
「スチームパンク」は  元々ファンタジー文学なのかな?
「香港のネオンサイン」は 実在の街の特徴を模倣させた感じです。

他にも
「油絵風」「鉛筆画風」(画材)とか
「現代インドで好まれそうなタッチ」とか
「赤を基調にした配色で、彩度は低め」(色彩)とか
「映画のポスター風」「車の広告みたいな感じに」とか・・・?
多分、どんな指定でもできるのだと思われます。

なので、素の状態(?)で勝負するなら
「ボキャブラリーが多い方が有利」なのかもしれないけど
そこは「あらゆる言葉を知っているらしいLLM」を
うまく使えたらいいなぁ、とか思っています。

つまり
「どうにかして出力空間を絞るヒントを
 生成AIから引っ張りだせないかな?」って事です。

ええと
長くなってしまったので、今日はこのへんで。
次回に続きます。


 

この記事が気に入ったらサポートをしてみませんか?