ChatGPTは、課金してPLUSユーザーになることで様々な機能を使えるようになります。例えば、AIチャットボットの能力を比較評価できる「Chatbot Arena」で1位をマークしているGPT-4や、外部企業が提供する800以上のプラグイン、最近だと自然言語でPythonを操作することができるCode Interpreterも大きな話題になっています。
このように仕事の自動化・効率化に繋がるあらゆる便利機能が存在する一方で、それらを使いこなすためにはChatGPTへの指示文であるプロンプトをいかに適切に作れるか(=プロンプトエンジニアリング)がポイントと言えます。プロンプトエンジニアリングは生成AI時代の新職業とも言われており、OpenAIの競合でLLMや対話型AIを開発するAnthropicは、プロンプトエンジニアを「年収2300万~4500万円+株式」で募集しています。
今回の記事では、仮想の戦略コンサルティングプロジェクトにおいて「ChatGPTのみでどこまでプレゼン資料のアウトラインを作成できるか」を検証した結果をお伝えします。様々な試行錯誤をした上で最もパフォーマンスが高かったプロンプトとその出力結果を紹介し、そこから分かった「分析文章作成におけるChatGPTの現在地と限界」についても触れます。
以下は、今回の検証活動で設定した前提条件になります。
仮想の戦略コンサルティングプロジェクトについて
クライアントは日本の大手新聞社で、新しくポッドキャストへの参入を検討している。ChatGPTはメディア業界専門のコンサルタントとしてその戦略策定プロジェクトへアサインされた。今回のプレゼン資料は、そのプロジェクトのキックオフミーティングで使用する予定。
使用ツール
GPT-4、Webpilot(ChatGPTからウェブ検索できるプラグイン)
結論
ウェブ上のファクト情報をベースにしたアウトライン(記事)であれば、5割は自動化可能。残りの5割を占める、「痒い所の情報収集」「ファクトをベースにした分析と示唆出し」は対応できず人間が対応しなければならない。
制作プロセスは、大きく以下5ステップに分けることができます。
①入れたい内容のブレスト
②全体構成作成
③情報収集
④分析・示唆出し
⑤文章執筆
このうち、②全体構成作成、③情報収集の半分程度、⑤文章執筆はプロンプトを作りこむことでChatGPTで代替することができると感じました(上記チャートの青部分)。一方、①入れたい内容のブレスト、③情報収集の一部、④分析・示唆出しは今の時点で代替できず、人間が対応する必要があります(グレー部分)。もちろん、今回試した以上のプロンプトエンジニアリングを施すことで対応できる部分もある可能性があります。また、今後LLMの進化はもちろんプロンプティングの手法もどんどん進化していくので、AIが対応可能な範囲は広くなっていくかもしれません。
使用したプロンプトテクニック
プロンプトエンジニアリングを進める上で、既に有効性が検証されているフレームワークを土台として使用しました。今回の目標を実現するためにはこれらをベースに様々な調整が必要ですが、スタート地点として使い易いテクニックになっています。具体的に施した調整については、記事後方のステップ1~3に記載しているポイントをご覧ください。
深津式プロンプト・システム
深津式プロンプト・システムは、noteのCXOでStability AI Japanの顧問を努める深津貴之さんによって考案されたフレームワークで、以下7つのポイントから構成されています。
ChatGPTにペルソナを与え役割を明確にする
入力文から出力文を作ることを明確にする
何を出力するのか明確にする
マークアップ言語を用いて、本文ではない箇所を明確にする
命令を箇条書きで明確にする
条件を追加することでChatGPTからの出力をコントロールする
「このタスクで最高の結果を出すために、追加の情報が必要な場合は質問をしてください」とプロンプトの最後に加える
メタ認知プロンプティング
メタ認知プロンプティングは、AIに自分の出力を自己評価、反省させる(=メタ認知)ことでより深い理解を促進する枠組みです。
具体的には、AIに以下5つの思考ステップを踏ませます。
理解の確認: 与えられたタスクに関する意味や理解は何か?
予備的判断: タスクに対する初期回答は何で、それはどのような情報や知識に基づいているか?
批判的評価: 初期回答は正確だと思うか?他の視点や情報を考慮すると、この考えを再評価する必要があるか?
最終的な判断と正当化: 批判的評価を経て、最終的な考えは何か? それに至った理由や根拠は何か?
自信の評価: •最終的な考えにどれくらい自信を持っているか? その自信の根拠は何か?
ステップバイステップで考える
これはGPT-3の時代から広く知られているテクニックで、「ステップ・バイ・ステップで考えて下さい」とAIに指示すると回答精度が飛躍的にアップします。AI研究で有名な松尾研究室所属で、東京大学大学院特任研究員の小島武氏が2022年5月に論文で発表した日本発祥のアイデアです(読売新聞オンライン)。
英語で考えて日本語で出力する
このテクニックは、こちらのツイートを見て取り入れました。原理として、GPT-4の学習データの多くは英語であると予想されるため、英語で思考した方が基本的に精度が高い回答が生成されるということではないかと考えられます。出力だけ日本語に翻訳することで、英語による出力精度を保つことができます。
ここからは、実際に使用したプロンプトとそのポイント、出力結果をステップ毎に紹介していきます。ステップは以下の通りです。
ステップ1: 全体構成の生成
ステップ2: 第一章と第二章の生成
ステップ3: 第三章の生成
ステップ1: 全体構成の生成
ここでは、プレゼン資料全体の構成を生成します。深津式プロンプト・システムをベースに構成要素として3C(マーケット情報、オーディエンス情報、競合他社情報)を指定することで、納得感の高いアウトプットを生成することができました。
プロンプト
出力
ステップ2: 第一章と第二章の生成
ステップ1で出力した章立てのうち、「第1章 ポッドキャスト市場の概観」と「第2章 オーディエンスの分析」の各節を一つずつ生成していきます。
深津式やメタ認知など上記プロンプトテクニックをベースにプロンプトを作りましたが、求めるアウトプットを出すために様々なカスタマイズをしました。
カスタマイズのポイントとしてまず挙げられるのが、リサーチ規則の指定です。WebpilotはChatGPTからウェブ上の情報を検索できるプラグインですが、使い勝手はそこまで良いわけではありません。何も指定しない状態だと単一のURLしか参照せずリサーチとして不十分だったり、URLを勝手に作り架空の情報を生成してしまいます。今回は、情報に厚みを持たせるために「明示的に3つ検索ワードを使用させる」「URLを勝手に作らず、既に存在するURLを探す」「Googleの検索結果URLではなく、特定のウェブページを調べる」といった規則を指定しています。
別のポイントとして、出力文字数をメタ認知プロセスと制約条件の双方に含めた点が挙げられます。何も指定しない状態だと各節の文字数が200程度となり、情報量としてとして物足りないです。制約条件に文字数を指定したり文字数ではなくトークン数を指定したり様々な方法を試しましたが、中々コントロールができませんでした。最終的に、メタ認知プロセスと制約条件の双方に含めることで最も理想に近づけることができました。
また、アウトプットの出力後に従って欲しい重要ポイントを振り返りさせた点も質の向上に繋がりました。「本文の文字数は最低500文字以上」「本文は3つ以上のURLを組み合わせて作られている」「URLを勝手に作っておらず、既に存在するURLを使っている」などを振り返ってもらうことで、足りていない点を自覚させアウトプットの精度が改善されました。また、自分で出した反省ポイントを元に自動で修正を走らせることもできました。
プロンプト
出力
ステップ3: 第三章の生成
第三章では、事例を複数調査して見つけた情報をなるべく具体的に文章にする必要があります。ステップ2で使用したプロンプトをそのまま使用すると、単一の事例のリサーチに終始してしまったり、見つけた情報を統合して抽象化してしまうなど事例調査として適したアウトプットを得られませんでした。そのため、ステップ2で使用したプロンプトをベースに更なるカスタマイズを加えました。
第一に、リサーチ規則に具体例を提示するFew-shot学習を追加しました。GPTにおけるFew-shot学習ないしはone-shot学習とは、タスク説明に加えて少量のデモンストレーション(タスク実行時の例)も提示することで、タスク実行の精度を上げる手法を指します。なお、デモンストレーションを与えずにタスク説明だけ行う手法をZero-shot学習と言います。今回は検索ワードの例示として、「"新聞社名+Podcast"という形式で3つの検索ワードを表示する(NewYorkTimes Podcastなど)
」というデモンストレーションをリサーチ規則に記載しました。これにより、NewYorkTimes以外にもThe Washington PostやThe Economistなど、他の新聞社のポッドキャスト事例を幅広くリサーチすることが可能になりました。
第二に、リサーチ結果を具体的に記載するよう作業プロセスと振り返りで二度指定しました。ステップ2で文字数指定を作業プロセスと振り返りの双方に記載したのと同様、リサーチ結果の具体的な記載も最重要事項として二ヵ所で指定することで理想のアウトプットに近づけることができました。
上記プロンプトエンジニアリングにより「3.1 国内の新聞社によるポッドキャスト事例 」と「3.2 海外の新聞社によるポッドキャスト事例」はうまく生成できましたが、「3.3 成功事例と教訓の分析」は期待したアウトプットを得られませんでした。事例からの示唆出しはコンサルティングにおいて最も重要なスキルの一つである一方で、定型化された方法は存在しません。点と点を繋いだり具体事象を抽象化してメッセージ化する能力はコンサルタントに属人的であり、ある種の"センス"も求められます。
自然言語生成AIの根幹には、突き詰めると「与えられた単語の次に続く可能性が最も高い単語を精度高く推定する技術」があります。そのため、与えられた情報から新しく何かを発見したり、これまで無かった(もしくは少なかった)仮説を作り出すことは原理的にできません。そのため、今回3.3で求められている「成功事例を元にした教訓の分析」を適切に実行することはできませんでした。
プロンプト
出力
Liquid Studioについて
Liquid Studioは、メディアエンタメ業界に特化した併走型コンサルティングスタジオです。生成AIなどの先端テクノロジーに強みを持ち、ビジネスと技術の両面からハンズオンでご支援致します。これまで、大手新聞社やデジタルニュースメディア、エンタメ系スタートアップ、雑誌社など多数の企業様に対し、社内セミナーや技術導入、戦略提案、オペレーション構築など多角的な支援を提供してきました。
HP: https://www.liquidstudio.biz/