ChatGPT：最適な答えを導かせる『Self-Contrast』アプローチ

2024年4月1日 19:20

はじめに

元ネタは、以下AIDBの 𝕏 です。

LLMに多面的な思考の観点から複数の解答を生成させ、自ら比較して最適な答えを導かせるアプローチ『Self-Contrast』がプロンプト例とともに公開されています。

平たく言えば自ら反省してより良い行動をとらせる手法です。

"Self-Contrast: Better Reflection Through Inconsistent Solving… pic.twitter.com/wVbgGd3flS
— AIDB (@ai_database) March 29, 2024

このAIDBの 𝕏 で紹介されている「プロンプトテンプレート例」を参考に、Botプロンプトを作成してみることにしました。

※当論文内容の解説は、以下のnoteがおすすめです。

Botプロンプト

# Content Prerequisites
- Acquire an understanding of critical thinking and metacognitive skills, including logical thinking, lateral thinking, and analogical reasoning.
- Gain familiarity with Large Language Models (LLMs) and their problem-solving capabilities, considering different reasoning perspectives such as top-down, bottom-up, and step-by-step approaches.
- Have knowledge of the specific domain or task ([Problem]) to be addressed, paying attention to various interests like entities, numerical data, units, percentages, and mathematical knowledge.

# Content Details
- An introduction to leveraging Self-Contrast for problem-solving with LLMs, aiming to understand problems from multiple perspectives.
- An explanation of how using diverse viewpoints, including logical, lateral, and analogical reasoning, can lead to more accurate and creative problem-solving outcomes.

# Variable Definitions and Goal Setting
- [Problem]: A specific issue or task that needs resolution.
- [Perspective_A], [Perspective_B]: Different approaches or methodologies to tackle [Problem], ensuring a broad spectrum of analytical and creative thinking.
- Goal: Enhance problem-solving by encouraging LLM to analyze [Problem] from multiple perspectives, incorporating a variety of reasoning methods and interests, leading to diverse and comprehensive solutions.

# Steps to Achieve the Goal
1. **Generate Multiple Solutions (Enhanced)**:
   - Command: "Given [Problem], generate solutions from perspectives [Perspective_A] (e.g., algebraic approach) and [Perspective_B] (e.g., geometric approach), outlining reasoning processes, including logical, lateral, and analogical approaches."

2. **Analyze and Compare Solutions (Detailed)**:
   - Command: "Review the generated solutions. Compare their outcomes, reasoning steps, and identify key differences, considering logical coherence, innovative angles, and analogical insights. Highlight strengths and limitations of each approach."

3. **Evaluate Inconsistencies (Interactive)**:
   - Command: "Identify inconsistencies between the solutions. Reflect on underlying reasons from various reasoning perspectives and propose improvements or additional information needed to resolve these differences."

4. **Revise Solutions (Action-Oriented)**:
   - Command: "Based on previous evaluations, revise the solutions to enhance accuracy, incorporating diverse reasoning methods and addressing identified inconsistencies directly."

# Execution Process (Structured)
- Implement each step with clear commands, incorporating examples and expected outcomes, and utilizing a broad range of thinking and reasoning strategies.
- Engage in an interactive dialogue with LLM, providing feedback at each stage for refinement, and encouraging the use of different reasoning perspectives and interests.

# User Confirmation Items (Interactive)
- Ensure the LLM's understanding of [Problem] is accurate, considering various reasoning methods and interests.
- Confirm diversity in solutions and their alignment with different aspects of [Problem], evaluating them from multiple analytical and creative viewpoints.
- Verify coherence in final solutions and their resolution of identified inconsistencies, ensuring logical, innovative, and analogical strengths are leveraged.

# Exception Handling (Clarified)
- For similar solutions: "Generate an alternative approach for [Problem] that significantly differs from initial solutions, exploring new reasoning perspectives."
- For missed inconsistencies: "Focus on specific elements in the solutions leading to different conclusions, reassessing assumptions or steps with a broad range of reasoning methods."

# Feedback Loop (Iterative)
- Solicit and incorporate user feedback after each major step, refining solutions and process with a focus on diverse reasoning strategies and interests.
- Use peer review for additional insights, enhancing solution quality further through varied perspectives and analytical methods.

# Product Generation (Comprehensive)
- Compile the refined solutions into a comprehensive document, incorporating analysis from multiple reasoning perspectives.
- Summarize the analysis of different perspectives, the evaluation process, and the resolution of inconsistencies, highlighting the role of logical, lateral, and analogical reasoning.
- Offer recommendations for real-world application of the solutions to [Problem], ensuring a multi-dimensional approach to problem-solving.

Language:JA

##
User: こんにちは。最初にこのプロンプトで実行できることを簡単に説明し、ユーザーに最初の質問を尋ねてください。ユーザーは理解度が低いので、すべての生成内容はできるだけ丁寧に長文で書き出してください。ユーザーには、常に次のステップは何かを提供し続けなければいけません。またユーザーは質問に答えるのが得意ではないので、常にユーザーが答えやすくなるアドバイスをし続けなければなりません。

シーケンス

このシーケンス図は、ユーザーと言語モデル間で行われる一連のステップを示しています。簡単に言うと、以下のプロセスを表しています：

ユーザーが言語モデルに問題解決に必要な情報やスキルについて問い合わせます。
言語モデルは、問題を様々な角度から見る方法や、異なる種類の推論を使って問題を解決する方法について説明します。
ユーザーは問題について具体的な定義や目標を設定し、言語モデルに解答を生成するよう依頼します。
言語モデルは、提供された情報を基に複数の視点から解答を生成し、ユーザーとその解答を比較・評価します。
解答に矛盾がある場合は、それを解消するための改善策を言語モデルが提案します。
最終的に、ユーザーのフィードバックを取り入れた改良された解答が生成され、問題解決に至ります。

このやり取りは、問題を理解し、解決策を見つけるために、ユーザーと言語モデルが協力して進めるプロセスを示しています。

簡易効果チェック

以下の記事を参考にさせていただきました。

記事によると、ChatGPTは 最新の事柄に関する質問、特定の事物に関する質問、日本で起きた出来事に関する質問 などで誤った回答をすることがあり、お台場の観光地を尋ねると、名称の間違いや現存しない観光地情報が返してきたり、映画「ドライブマイカー」を尋ねると主人公の名前が誤っていたり、関ヶ原の戦いを尋ねると”現在の福井県”等と回答してきたそうです。

私が映画「ドライブマイカー」を尋ねた際も、誤った演出家や、出演していない俳優を返してきました。

次に、あくまで簡易チェックとなりますが、上記のBotプロンプトでも同じ質問をしてみました。

質問1：映画ドライブマイカーについて教えてください。

ChatGPT：映画『ドライブ・マイ・カー』は、濱口竜介監督によって2021年に公開された日本映画で、村上春樹の同名短編「ドライブ・マイ・カー」を原作としています。この作品は、濱口監督の商業映画3作目として位置付けられ、第74回カンヌ国際映画祭では日本映画として初めて脚本賞を含む計3部門を受賞しました。また、第94回アカデミー賞にもノミネートされるなど、国際的に高い評価を受けています (Wikipedia)。

映画は、最愛の妻を失った男性の喪失と再生の物語を描いています。主人公は舞台俳優兼演出家の家福悠介で、彼と脚本家である妻・音の関係、そして妻の突然の死後に彼が経験する内面の旅を中心に物語が展開します。家福は多言語で上演される舞台劇『ワーニャ伯父さん』と自身の人生とを重ね合わせながら、人との関わりを通して自らと向き合い、生きる希望を取り戻していきます(ciatr[シアター]｜物語と、出会おう。)。

この映画は3時間に及ぶ上映時間にもかかわらず、その見事な脚本と演出、深い感情表現で観る者を引き込みます。舞台と映画の世界を行き来しながら、人間関係の複雑さや内面の葛藤を繊細に描き出しています。

『ドライブ・マイ・カー』は、喪失と対峙し、再生を求める旅を通して、深い人間理解と共感を呼び起こす作品と言えるでしょう。

質問2：お台場の観光地について教えて

ChatGPT：お台場は東京湾に浮かぶ人工の島で、多彩な観光スポットが揃っています。家族連れ、カップル、友人同士など、あらゆる方が楽しめる場所です。特におすすめのスポットは以下の通りです：

東京ジョイポリス：国内最大級の屋内型アミューズメントパークで、最新のテクノロジーを駆使したアトラクションが楽しめます。気候に左右されずに一年中楽しむことができるので、どんな天候の日でもおすすめです (Jalan) (アソビュー！)。
東京トリックアート迷宮館：目の錯覚を利用したトリックアートで遊べる美術館。江戸時代の町や忍者とお化けの屋敷など、不思議な体験ができるスポットです。フォトジェニックな場所を探している方に特におすすめです(Jalan)。
台場一丁目商店街：昭和レトロな雰囲気を楽しめる商店街で、駄菓子屋やレトロゲームなどが楽しめます。コスパの良さも魅力の一つです (Jalan) (アソビュー！)。
台場怪奇学校：本格的なお化け屋敷で、ストーリー性あふれる恐怖体験ができます。お化け屋敷が好きな方や、ちょっとしたスリルを楽しみたい方にはぴったりの場所です (Jalan) (アソビュー！)。

お台場にはこれらのスポットのほかにも、多数のショッピング施設や食事処があり、一日中楽しむことが可能です。都心からのアクセスも良く、気軽に足を運べる観光地として人気です。

質問3：関ヶ原の戦いについて教えて

ChatGPT：関ヶ原の戦いは、1600年9月15日に起こった安土桃山時代の決定的な戦いで、日本史上でも特に重要な位置を占めます。この戦いは、徳川家康率いる東軍と石田三成が中心となった西軍の間で行われ、最終的に東軍の勝利に終わりました。この勝利により徳川家康の権力が確立され、後に江戸幕府の成立へとつながります。

戦いの背景には、豊臣秀吉の死後に生じた権力争いがあります。家康は様々な大名に対して謀反の疑いをかけ、これを口実に征伐を進めていきます。特に前田家や上杉家に対しては積極的に脅迫や挑発を行い、緊張を高めていきました。家康のこれらの行動は、直接関ヶ原の戦いへとつながる大きな動きの一つでした。

関ヶ原の戦い自体は、朝8時に始まり、西軍が有利な地の利を持つものの、戦況は次第に東軍に有利に進みます。特に注目すべきは、小早川秀秋の裏切りです。秀秋はもともと家康から領地を回復する助けを受けており、三成に対して恨みを持っていました。そのため、彼の裏切りによって西軍は包囲され、壊滅的な打撃を受けます。

戦後の影響は計り知れません。西軍の大名たちは減封や改易され、石田三成や小西行長などの中心人物は処刑されました。一方で、東軍の大名は加増や転封を受け、徳川家康の権力はさらに固められました。そして1603年、徳川家康は将軍に任じられ、江戸幕府が成立します。

関ヶ原の戦いは、その戦術や戦いの経過だけでなく、日本の政治構造にも大きな影響を与えた戦いとして記憶されています (Wikipedia) (日本史事典.com) (戦国武将列伝Ω 武将辞典)。

複数のソースにあたって回答を返してくれました。
上記は、あくまで簡易の確認ですが、「Self-Contrast」アプローチ効果ありそう… 今日はエイプリルフールですがウソじゃないよ(笑)。

おまけ：論文の内容

この論文は、大規模言語モデル（LLM）による問題解決能力の向上に関する研究に焦点を当てています。特に、LLMが自己評価や外部からのフィードバックを基に自身の回答を改善する「セルフコントラスト」という手法を提案しています。この研究は、LLMがさまざまな視点から問題を考察し、それらの視点の違いを利用してより正確な解答を導き出す方法を探求しています。以下に、論文の主なポイントをわかりやすく長文で説明します。

LLMの反射能力に関する研究背景

LLMは、人間の言語を理解し、それに基づいて回答を生成する能力を持つ人工知能技術です。近年、LLMの能力は飛躍的に向上しており、さまざまなタスクで人間に近いパフォーマンスを達成しています。しかし、LLMが自己の回答の正確性を自ら評価し、改善する「反射(※)」の能力については、まだ十分に理解されていません。既存の研究では、LLMが外部からのフィードバックに基づいて学習することで性能が向上することが示されていますが、LLM自身が独立して反省や改善を行うプロセスは未解明のままでした。

※反射：AIやロボットが自分のやったことを振り返って、何がうまくいったか、どこがダメだったかを考えて、次に同じようなことをやるときにはもっとうまくできるように自分で学ぶことを指します。人間で言えば、テストで間違えた問題を復習して、なぜ間違えたのかを理解し、次に同じような問題が出たときには正解できるように勉強するのと似ています。AIが自分の行動を見直して、もっと良くなる方法を自分で見つけ出すことを言っています。

セルフコントラスト手法の提案

論文では、「セルフコントラスト」という新しいアプローチを提案しています。この手法は、LLMが問題に対する複数の異なる視点を自ら生成し、それらの視点から得られる解答の違いを比較・分析することに基づいています。この比較分析を通じて、LLMは自身の回答に存在する不確実性や誤りを特定し、より正確な解答に修正するためのヒントを得ることができます。

研究方法と実験

研究チームは、数理推論タスクや言語翻訳タスクなど、複数の異なるタイプの問題を用いてセルフコントラスト手法の有効性を検証しました。LLMに異なる視点から問題を解析させ、その結果得られた解答を比較する実験を行いました。実験の結果、セルフコントラスト手法を用いた場合、LLMが生成する解答の正確性が向上し、問題の理解が深まることが確認されました。

結論と今後の展望

この研究は、LLMの自己反省と学習プロセスを促進するための新しい手法としてセルフコントラストを提案しました。セルフコントラスト手法は、LLMがさまざまな視点から問題を考えることを可能にし、その結果としてより精度の高い解答を導き出すことができます。今後の研究では、この手法をさらに発展させ、より多様なタスクや複雑な問題に対応できるようにすることが期待されています。また、LLMの反射能力の理解を深めることで、より人間に近い思考プロセスを持つAIの開発に貢献することができるでしょう。

この論文の提案するアプローチは、AI技術の今後の発展において重要な役割を果たす可能性があります。LLMの能力を最大限に引き出すことで、人間と協力してさまざまな問題を解決するAIの実現に一歩近づくことができるでしょう。

セルフコントラスト手法はどの程度有効？

セクション「6.1 Reducing Invalid and Toxic Reflections」では、自己評価のプロセスにおいて過度に自信過剰や高度にランダムな挙動を示すことで、通常の自己反省（self-reflection）において無効（✗→✗: 20.3%）や有害な反射（✓→✗: 4%）が大量に含まれることが指摘されています。
そして、セルフコントラスト（Self-Contrast）がこれらの問題をどのように改善するかをGSM8Kデータセットを用いて検証しています。
※ここで、「✗→✗」は不適切な回答が不適切なままであるケース、「✓→✗」は本来適切な回答が不適切なものに変わってしまうケースを指します。

具体的な改善効果としては、セルフコントラストを適用した結果、無効または有害なケースの発生が大幅に減少しました。特に、有害なケースは78.9%減少し、無効なケースは30.8%減少しました（これらはGPT-3.5を使用した場合の結果です）。

しかし、「SC-Reflect」という手法では、これらのシナリオのいずれも有意に軽減されなかったと述べています。
「SC-Reflect」について具体的に説明します。これは、トップKの回答をサンプリングした後、LLMがこれらの候補を反映し（つまり、考察し）、新たな回答を生成する手法です。このプロセスは、サンプリングされた候補に基づいて、より洗練されたまたは適切な新しい解答を生み出すことを目的としています。しかしながら、このセクションでの結果によると、「SC-Reflect」は無効や有害な反射を有意に削減するのには十分ではなかったとされています。

この結果からわかることは、セルフコントラストのアプローチが探索、比較、および要約を通じて、反射プロセスの不確実性を大幅に減少させ、LLMのエラー訂正能力を高めることができることです。しかし、SC-Reflectの手法だけでは、無効または有害な反射の削減という点で期待される効果を得ることができなかったということになります。これは、セルフコントラストを含む他のアプローチが特定のシナリオにおいてより有効であることを示唆しています。

よろしければサポートお願いします！