見出し画像

Generative Agents: Interactive Simulacra of Human Behavior [日本語訳]

本ページは以下の論文の翻訳です。




図1:生成エージェントは、インタラクティブなアプリケーションのために、人間の行動の信じられるシミュラクラを作成します。この研究では ジェネレイティブ・エージェントは、「ザ・シムズ」を彷彿とさせるサンドボックス環境に25のエージェントを配置する。ユーザーは ユーザは、エージェントが彼らの一日を計画し、ニュースを共有し、関係を形成し、グループ活動を調整するのを観察し、介入することができる。

ABSTRACT

人間の行動を信じられるように再現するプロキシは、没入型環境から人間とのコミュニケーションのリハーサル空間、プロトタイピングツールに至るまで、インタラクティブなアプリケーションに力を与えることができます。
本論文では、信じられる人間の行動をシミュレートする計算機ソフトウェアエージェントである「生成エージェント」を紹介します。
生成エージェントは目覚めて朝食を作り、仕事に向かいます。
アーティストは絵を描き、作家は執筆します。彼らは意見を持ち、お互いに気づき、会話を始めます。彼らは過去の日々を覚え、次の日を計画しながらそれを振り返ります。
生成エージェントを可能にするために、私たちは大規模な言語モデルを拡張したアーキテクチャを説明し、自然言語を使ってエージェントの経験の完全な記録を保存し、その記憶を時間の経過とともに高次の反思に合成し、行動を計画するために動的に取り出す方法を示します。
私たちはThe Simsにインスパイアされたインタラクティブな砂場環境を生成エージェントで満たし、エンドユーザーが自然言語を使って25人のエージェントから成る小さな町とやり取りできるようにします。
評価により、これらの生成エージェントは信じられる個々の行動と集団の行動を生み出します。例えば、1つのユーザー指定の考えだけで始め、あるエージェントがバレンタインデーのパーティを開きたいという発想から、エージェントたちは自律的にパーティの招待状を次の2日間で広め、新しい知り合いを作り、パーティに誘い合い、適切な時間に揃ってパーティに現れるように調整します。私たちは論争により、エージェントのアーキテクチャの構成要素である観察、計画、反思が、エージェントの行動の信ぴょう性にそれぞれ重要な寄与をしていることを示します。
大規模な言語モデルと計算機のインタラクティブエージェントを融合させることにより、この研究は人間の行動の信じられるシミュレーションを可能にするためのアーキテクチャとインタラクションパターンを紹介しています。

CCS CONCEPTS

  • 人間中心のコンピューティング→インタラクティブシステムとツール

  • コンピューティングの方法論→自然言語処理

KEYWORDS

Human-AI Interaction, agents, generative AI, large language models

ACM Reference Format:

Joon Sung Park, Joseph C. O’Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. 2023. Generative Agents: Interactive Simulacra of Human Behavior. In . ACM, New York, NY, USA, 22 pages. https://doi.org/xx.xx/xx.xx

1.INTRODUCTION

信じられる人間の行動を反映するインタラクティブな人工社会をどのように構築できるでしょうか?The Simsなどのサンドボックスゲームから、認知モデル[21]や仮想環境[9, 58]などのアプリケーションに至るまで、研究者と実践者は40年以上にわたり、信じられる人間の行動を代理する計算エージェントを構想してきました。これらのビジョンでは、計算力を持つエージェントは過去の経験に基づいて一貫して行動し、環境に対して信じられる反応をします。このような人間の行動のシミュレーションは、仮想空間やコミュニティに現実的な社会現象を生み出すことができます。また、人間同士の希少なが困難な対人関係のシチュエーションを学ぶ手段として活用されたり、社会科学の理論を検証するために使用されたり、理論と使いやすさのテストにおけるモデルの基盤として使用されたり、あらゆる場面で応用されています。そして、オープンワールドで複雑な人間関係を持つ非プレイヤーゲームキャラクター[58, 84]を支えることも可能です。
しかし、人間の行動の領域は広大で複雑です[84, 108]。大規模言語モデル[17]による信じられる人間の行動のシミュレーションは1つの時点で行われることがありますが、長期的な一貫性を確保する完全な汎用エージェントは、新しい相互作用、衝突、イベントが生じたり消えたりするにつれて絶えず成長するメモリを管理するアーキテクチャによってより適しています。また、複数のエージェント間で展開される連鎖的な社会的ダイナミクスを処理することも必要です。成功には、長期間にわたって関連するイベントや相互作用を取り出し、それらの記憶を反映させて一般化し、より高次の推論を行い、その推論を利用して瞬間的な行動とエージェントの行動の長期的な経過に合った反応を作り出すアプローチが必要です。
この論文では、信じられる人間の行動をシミュレートするために生成モデルを活用する「生成エージェント」を紹介し、個々の行動と集団の行動の信じられる模倣物を生成することを示しています。生成エージェントは、自ら、他のエージェント、および環境に関する多様な推論を行い、特性と経験を反映した日々の計画を立て、それを実行し、適切な時に反応して再計画します。また、エンドユーザーが環境を変更したり自然な言語で命令したりした場合にも、対応します。例えば、生成エージェントは、朝食が焦げているのを見たらストーブを消し、トイレが使用中ならば待機し、他のエージェントと会話したいと思ったら立ち止まって会話します。生成エージェントたちが満ちている社会は、新しい関係が形成され、情報が拡散し、エージェント間での調整が生じる、自発的な社会的ダイナミクスが特徴です。
生成エージェントを可能にするために、大規模言語モデルを利用して信じられる行動を生成するために関連する記憶を記録、合成、適用するエージェントアーキテクチャを説明します。このアーキテクチャには3つの主要な要素があります。1つ目は「メモリストリーム」で、エージェントの経験を自然言語で包括的に記録する長期記憶モジュールです。2つ目は「反思」で、記憶を時間の経過に沿って高次の推論に合成し、エージェント自身や他者についての結論を導き出して行動を導くことができます。3つ目は「計画」で、これらの結論と現在の環境を高次のアクション計画に変換し、再帰的に詳細な行動と反応に変換します。これらの反思と計画は、エージェントの将来の行動に影響を与えるためにメモリストリームにフィードバックされます。
このアーキテクチャは、ロールプレイや社会プロトタイピングから仮想世界やゲームに至るまで、さまざまなドメインで応用できると示唆しています。ソーシャルロールプレイシナリオ(例:面接の準備)では、ユーザーは難しい、対立のある会話を安全にリハーサルすることができます。ソーシャルプラットフォームのプロトタイピングでは、デザイナーは一時的なパーソナを超えて時間の経過とともに展開されるダイナミックで複雑な相互作用をプロトタイプ化できます。この論文では、The Simsなどのゲームにインスパイアされたエージェントの小さなインタラクティブな社会を作成する能力に焦点を当てています。ChatGPT大規模言語モデル[76]と組み合わせることで、ゲーム環境で様々なエージェントから成る小さな社会を形成します。エンドユーザーはこれらのエージェントを観察し、彼らと対話することができます。例えば、エンドユーザーや開発者がゲーム内でバレンタインデーのパーティを開催したいと考えた場合、従来のゲーム環境では複数のキャラクターの行動を手動でスクリプト化する必要がありますが、生成エージェントを使用すると、単に1つのエージェントにパーティを開きたいと伝えるだけで済みます。多くの失敗の可能性がある中でも、パーティのプランナーは他のエージェントにパーティについて伝えることを覚え、参加者は招待状を覚え、参加することを決定し、他にも様々な失敗の可能性がありながら、私たちの環境のエージェントは成功します。彼らはパーティについて広報し、そしてパーティに参加します。さらに、1つのエージェントが別のエージェントにパーティのデートに誘うといった、この単一のユーザー生成のシード提案からも実現されます。
生成エージェントの2つの評価を行いました。1つ目は制御評価で、エージェントが孤立した状態で信じられる個々の行動を生成するかどうかをテストしました。2つ目はエンドツーエンドの評価で、生成エージェントが2日間にわたって開かれた方法でお互いと対話し、その安定性と新興社会的行動を理解することを目的としました。技術的評価では、自然言語で「インタビュー」することによりエージェントの知識と行動を評価し、エージェントがキャラクターにとどまり、記憶を覚え、計画し、反応し、正確に反映する能力を調査しました。メモリ、反思、計画へのエージェントのアクセスを制限するいくつかの改変を比較しました。これらのコンポーネントのそれぞれが、インタビュータスク全般にわたる強力なパフォーマンスに対して重要であることを観察しました。技術的評価とエンドツーエンドの評価の両方で、最も一般的なエラーは、エージェントが関連する記憶を取得できなかったとき、エージェントの記憶に修飾を加えてしまったとき、または言語モデルから過度に形式的な話し方や行動を受け継いでしまったときに生じました。
要約すると、この論文は以下のような貢献を提供しています:

  • 生成エージェント:変化する経験と環境に応じて動的に条件付けられた、信じられる人間の行動のシミュラクラ。

  • 新しいアーキテクチャ:生成エージェントが、動的に進化する状況の中で記憶、取得、反映、他のエージェントとの相互作用、計画を行うことを可能にするアーキテクチャ。このアーキテクチャは、大規模言語モデルの強力なプロンプティング機能を活用し、それらの機能を補完することで、より長期的なエージェントの一貫性、動的に進化するメモリの管理、より多くの世代を再帰的に生成することをサポートします。

  • 2つの評価(制御評価とエンドツーエンド評価)により、アーキテクチャの構成要素の重要性における因果関係が確立され、不適切なメモリの取得などから生じる崩壊が特定されます。

  • インタラクティブシステムにおける生成エージェントの機会と倫理的・社会的リスクについての議論。ユーザーが対話相手に対して対話的関係を築くリスクを軽減するためにエージェントが調整されるべきであると主張し、ディープフェイクや個別の説得に起因するリスクを軽減するためにログが取られるべきであり、設計プロセスにおいて人間の関係者を補完する形で適用されるべきであると述べています。

2.RELATEDWORK

このセクションでは、人間とAIの相互作用に関する先行研究を振り返り、信じられる人間の行動を構築するという課題をその体系に位置付けます。この課題は、相互作用、ゲーム、人工知能のコミュニティでかつて北極星として賞賛されていましたが[9, 58, 84, 85]、人間の行動の複雑さのために依然として困難です[16, 108]。私たちはこれらの研究を統合し、大規模言語モデル自体だけでは十分ではないものの、適切なアーキテクチャを用いて活用することで、信じられるエージェントを作成するための新たな視点を開くと提案します。

2.1 Human-AI Interaction

インタラクティブな人工知能システムは、ユーザーを補完することができる計算アーティファクトで人間の洞察と能力を結合することを目指しています[3, 29]。長い間にわたり、ユーザーがモデルの振る舞いを対話的に指定できる方法についての研究が行われてきました。例えば、Crayonsは、非専門家のユーザーが分類器をトレーニングできるようにする初期のインタラクティブな機械学習のビジョンを示しました[29]。さらなる研究では、ユーザーがシステムに分類の目標を例を使って[33]、またはデモンストレーションを通して[31] 記述する方法を明確にするのに役立ちました。最近の研究では、これらの探求を深層学習[62]やプロンプトベースの制作[49, 66, 106]にまで拡張しています。
一方で、人間とコンピュータの相互作用における言語とエージェントを基盤とした相互作用の可能性を示す研究も進んでいます。SHRDLU [103] や ELIZA [102]といった形成的な研究は、自然言語とコンピューティングシステムとの相互作用の可能性とリスクを示しています。研究が進むにつれ、自律エージェントが委任と相互作用の新しいメタファーを提供できることが明らかになりました[67]が、人間とエージェントの間の委任のラインは依然として議論されて改善されています[46, 88, 89]。最近では、この技術は十分に安定してきたため、エージェントが自然言語を介して大規模で複雑なオンライン社会環境で対話することが可能になっています(例:[54])。
自然言語の相互作用は、写真編集[2, 34, 64]やコード編集[87]などのドメインでユーザーの能力を拡張することができる新しいモダリティを提供します。
これらの研究のスレッドを組み合わせて、私たちは現在、インタラクティブなシステムのために人間の行動を代理するエージェントを作成し、自然言語を介してそれらと対話することができることを示すことができます。これにより、この研究は、GOMSやKLM [21, 22]などの認知モデル、プロトタイピングツール [79]、および普遍的なコンピューティングアプリケーション [25, 30, 100]などの基本的なHCIに関する質問を再検討する道を開くことになります。

2.2 Believable Proxies of Human Behavior

過去の文献では、信じられる性格やエージェントを中心とした設計とエンジニアリングの目標として描かれてきました。信じられるエージェントは、ディズニーの映画のキャラクターのように、自らの意志で意思決定し行動するように見えることで、生命の錯覚と現実味のある外観を提供するように設計されています[9, 95]。これらのエージェントは、私たちが生活するようなオープンワールドの環境を形成し、ユーザーや他のエージェントとの社会的相互作用を基盤とした新興の行動を示すように努力し、仮想的な個人やコミュニティのシミュレーションにおいて私たちの行動の信じられる代理人となることを目指しています[19, 35, 70]。これらのエージェントは、歴史的には信じられる行動を持つNPC(ノンプレイヤーキャラクター)としてゲーム内に開発されました[58, 84]。可能な場合には、信じられる行動を持つNPCの作成は、ゲームやインタラクティブなフィクションにおいて、新興の物語やエージェントとの社会的相互作用を可能にすることでプレイヤーの体験を向上させることができます[7, 15, 48, 92]。しかし、より重要なことは、ゲームの世界は現実世界の提供可能な手がかりをよりリアルに表現しており、2001年のLairdとvan Lentの観察によれば、これらのシミュレートされた世界は信じられるエージェントの開発者にとって、現実世界でのロボティクスの実装やシミュレーション環境の作成を心配することなくエージェントの認知能力を調整するためのアクセス可能なテストベッドを提供しています[58, 84]。
過去40年にわたって、信じられるエージェントを作成するための多様なアプローチが現れてきました。しかし、これらのアプローチは実装において、エージェントの環境や行動の次元を簡略化することがしばしば行われ、作業をより管理しやすくしていました[16, 72]。有限状態機械や行動ツリーなどのルールベースのアプローチは、エージェントの行動を人間が手動で作成するという力ずくの手法を取り入れています[70]。これらのアプローチは、まだ最も支配的なアプローチであり、簡単なエージェントを作成するための直接的な方法を提供しています[68, 73, 109]。さらに、Mass Effect [12]やThe Sims [6]シリーズなどのシミュレーションゲームに見られるように、基本的な社会的相互作用に対応することもできます。しかし、オープンワールドの中で可能な相互作用の幅広さに対応するために包括的な行動を手動で作成することは不可能です。その結果、得られるエージェントの振る舞いは、その相互作用の結果を完全に表現しきれない可能性があるばかりか、スクリプトにハードコーディングされていない新しい手順を実行することはできません[69-71]。一方で、信じられるエージェントを作成するための主要な学習ベースのアプローチ、例えば強化学習は、エージェントが自らの行動を学習することにより、手動での作成の難しさに克服しており、近年ではAlphaStar for Starcraft [98]やOpenAI Five for Dota 2 [10]などのゲームでスーパーヒューマンのパフォーマンスを達成しています。しかし、彼らの成功は主に学習アルゴリズムが最適化できるすぐに定義可能な報酬を持つ対戦型のゲームでのものであり、オープンワールドにおいて信じられるエージェントを作成する課題にはまだ対応していません[39, 73, 90]。
信じられるエージェントを作成するための認知アーキテクチャは、Newellによって開拓され、包括的な認知機能をサポートするためのインフラストラクチャを構築することを目指
していました[75]。これらのアーキテクチャは、信じられるエージェントの初期の例の一部を提供しました。例えば、Quakebot-SOAR [59]やICARUS [24, 63]は、ファーストパーソンシューターゲーム内でNPCを生成し、TacAir-SOAR [80]は航空戦闘訓練シミュレーション内でパイロットを生成しました。これらのエージェントで使用されるアーキテクチャは異なります(Quakebot-とTacAir-SOARはSOAR [60]を使用し、ICARUSはSOARとACT-R [5]にインスパイアされた独自のバリエーションを使用しました)が、同じ基本的な原則を共有していました[61]。彼らは短期記憶と長期記憶を保持し、これらの記憶に象徴的な構造を持たせ、知覚-計画-行動サイクルで動作し、動的に環境を知覚し、それを手動で作成されたアクション手順の1つにマッチングしました[57, 96]。認知アーキテクチャを使用して作成されたエージェントは、大部分またはすべてのオープンワールドのコンテキストに対応できるように一般化され、その時代のための頑健な振る舞いを示しました。しかし、彼らの行動の領域は手動で作成された手続き的な知識に制限されており、エージェントが新しい行動を探求することを刺激するメカニズムを提供していませんでした。そのため、これらのエージェントは主にファーストパーソンシューターゲーム[24, 59]やブロックワールド[63]などの非オープンワールドのコンテキストで展開されていました。
今日、オリジナルの定義で記述された信じられるエージェントの作成は、未解決の課題のままです[84, 108]。多くの研究者は既存の信じられるエージェントの作成手法は手間がかかり限定的であるかもしれないが、既存のゲームプレイや相互作用をサポートするには十分であると主張しています[23, 74, 108]。しかし、私たちの主張は、大規模な言語モデルが記憶を信じられる行動に合成するための効果的なアーキテクチャを作成するための機会を提供しているということです。この論文では、そのようなアーキテクチャへの一歩を提供します。

2.3 Large Language Models and Human Behavior

生成エージェントは、彼らの行動を動かすために大規模な言語モデルを利用しています。重要な観察結果は、大規模な言語モデルが、その学習データに表現された幅広い人間の行動をエンコードしているという点です[14, 17]。狭く定義された文脈でプロンプトを与えると、これらのモデルは信じられる行動を生成するために使用できます。最近の研究では、このアプローチの有効性が示されています。例えば、Social Simulacraでは、大規模な言語モデルを使用して、新しいソーシャルコンピューティングシステムに現れるユーザーを生成し、新興の社会的相互作用のプロトタイプを作成しました[79]。このアプローチでは、プロトタイプされるシステムに表示されるペルソナとその行動の短い自然言語の説明を生成するためにプロンプトチェーン[105, 106]が使用されました。その他の実証研究では、既存の社会科学研究[45]、政治的調査[91]、および合成データの生成[38]が再現されています。また、大規模な言語モデルはユーザーが関わるインタラクティブな人間の行動を生成するためにも使用されています。例えば、ゲームでは、これらのモデルがインタラクティブフィクション[36]やテキストアドベンチャーゲーム[20]を作成するのに使用されています。大規模な言語モデルは、アクションシーケンスを生成して分解する能力を持つため、ロボットのタスクの計画にも使用されています[47]。例えば、ボトルを取るというタスクが提示された場合、モデルはボトルが置かれているテーブルに向かい、それを取るというように、タスクを小さなアクションシーケンスに分解するようにプロンプトされます。
私たちは、上記の研究を基に、大規模な言語モデルは信じられるエージェントを作成するための鍵となる要素になり得ると考えています。既存の文献は主に、少数のプロンプトを使用した1次テンプレートに依存しています(例:トロールが特定の投稿にどのように反応するか、ドアがあるという条件でロボットが部屋に入るためにどのような行動をするか)。ただし、信じられるエージェントは、現在の環境だけでなく、膨大な過去の経験に基づいて調整する必要があります。これは1次プロンプトを用いることでは適合しないため(および現在のモデルの制約されたコンテキストウィンドウのため、現時点では不可能です)、最近の研究は、言語モデルに静的な知識ベースと情報検索スキームを追加したり[52]、簡単な要約スキームを追加したりすることで、1次プロンプトを超える試みを行ってきました。この論文では、過去の経験が各時間ステップで動的に更新され、エージェントの現在のコンテキストと計画と混合されるリトリーバルを処理するエージェントアーキテクチャを拡張します。これにより、それぞれが強化し合ったり相反し合ったりすることがありますが、信じられるエージェントを作成するためのメカニズムが提供されます。

3.GENERATIVE AGENT BEHAVIOR AND INTERACTION

具体的な例として、生成エージェントの利用価値を明確にするために、The Sims [6]を思わせるシンプルなサンドボックスワールドにキャラクターとして生成エージェントを具現化します。このスプライトベースのサンドボックスゲームワールド「Smallville」は、小さな町の環境を想起させます。このセクションでは、Smallvilleでの生成エージェントの利用価値と相互作用について説明し、エージェントがどのように振る舞うかについて説明します。その後、セクション4では、これらの利用価値と相互作用を動かす生成エージェントアーキテクチャを紹介します。セクション5では、サンドボックス環境の実装とエージェントがサンドボックスワールドの基盤となるエンジンと相互作用する方法について説明します。

図2:Smallvilleサンドボックスワールド。エリアにラベルが付いています。ルートノードは全体の世界を表し、子ノードはエリア(例:家、カフェ、店)を表し、葉ノードはオブジェクト(例:テーブル、本棚)を表します。エージェントは、見た部分を反映するサブグラフを記憶し、それらを見た状態で保持します。

3.1 Agent Avatar and Communication

Smallvilleには25人のユニークなエージェントのコミュニティが存在します。各エージェントはシンプルなスプライトアバターで表現されています。エージェントのアイデンティティを示すために、職業や他のエージェントとの関係を含む自然言語の説明を1つの段落で作成し、シードメモリとして設定しました。例えば、John Linの説明は以下の通りです:

John Lin is a pharmacy shopkeeper at the Willow Market and Pharmacy who loves to help people. He is always looking for ways to make the process of getting medication easier for his customers; John Lin is living with his wife, Mei Lin, who is a college professor, and son, Eddy Lin, who is a student studying music theory; John Lin loves his family very much; John Lin has known the old couple next-door, Sam Moore and Jennifer Moore, for a few years; John Lin thinks Sam Moore is a kind and nice man; John Lin knows his neighbor, Yuriko Yamamoto, well; John Lin knows of his neighbors, Tamara Taylor and Carmen Ortiz, but has not met them before; John Lin and Tom Moreno are colleagues at The Willows Market and Pharmacy; John Lin and Tom Moreno are friends and like to discuss local politics together; John Lin knows the Moreno family somewhat well — the husband Tom Moreno and the wife Jane Moreno.

ジョン・リンはウィロー・マーケット兼薬局の薬剤師で、人々を助けることが大好きです。 彼は常に顧客の薬を手に入れるプロセスを簡単にする方法を模索しています。ジョン・リンは妻のメイ・リン(大学教授)と息子のエディ・リン(音楽理論を学んでいる学生)と一緒に暮らしています。 彼は家族をとても愛しています。また、隣人の老夫婦、サム・ムーアとジェニファー・ムーアを数年前から知っています。 ジョン・リンはサム・ムーアを親切で優しい人と思っています。 さらに、隣人のユリコ・ヤマモトともよく知り合いです。 タマラ・テイラーとカルメン・オルティスという隣人については聞いたことはありますが、まだ会ったことはありません。 ジョン・リンとトム・モレノはウィロー・マーケット兼薬局で同僚です。彼らは友人であり、地元の政治について話し合うのが好きです。ジョン・リンはモレノ家族(夫のトム・モレノと妻のジェーン・モレノ)をある程度よく知っています。

各セミコロンで区切られたフレーズは、シミュレーションの開始時にエージェントの初期メモリとして入力されます。

3.1.1 エージェント間のコミュニケーション

エージェントは行動を通じて世界と相互作用し、自然言語を通じてお互いとコミュニケーションをします。サンドボックスエンジンの各タイムステップでは、エージェントは現在の行動を記述する自然言語の文を出力します。例えば、「イザベラ・ロドリゲスは日記を書いています」、「イザベラ・ロドリゲスはメールをチェックしています」、「イザベラ・ロドリゲスは家族と電話で話しています」、「イザベラ・ロドリゲスは寝る準備をしています」といった具体的な行動です。この文はその後、サンドボックスワールドに影響を与える具体的な動きに変換されます。行動はサンドボックスインターフェース上に絵文字のセットとして表示され、俯瞰ビューで行動を抽象的に表現します。これを実現するために、システムは行動を絵文字のセットに変換する言語モデルを使用し、各アバターの上に吹き出しで表示されます。例えば、「イザベラ・ロドリゲスは日記を書いています」は として表示され、また「イザベラ・ロドリゲスはメールをチェックしています」は として表示されます。完全な自然言語の行動の説明は、エージェントのアバターをクリックすることでアクセスできます。
エージェントは完全な自然言語でお互いとコミュニケーションをします。エージェントは自分の周辺にいる他のエージェントを認識しており、生成エージェントアーキテクチャがそれらが通り過ぎるか会話を行うかを決定します。以下は、イザベラ・ロドリゲスとトム・モレノとの間で行われた会話の一部の例です。内容は、近日行われる選挙についてのものです。

イザベラ:まだ選択肢を検討中ですが、サム・ムーアと選挙について話し合っています。彼についてどう思いますか?
トム:正直なところ、私はサム・ムーアが好きではありません。彼は地域とはズレており、私たちの最善の利益を考えているとは思えません。

3.1.2 ユーザーの操作方法

このシミュレーションを実行するユーザーは、シミュレーションを操作したり介入したりすることができます。エージェントとの会話を通じてコミュニケーションするか、「内なる声」の形式でエージェントに指令を出すことができます。
ユーザーは自然言語を使ってエージェントとコミュニケーションを行い、エージェントがユーザーを認識するべき「ペルソナ」を指定します。例えば、ユーザーがニュースの「レポーター」として指定し、「次の選挙に立候補しているのは誰ですか?」と尋ねた場合、ジョン・エージェントは以下のように返答します:

ジョン:私の友人ユリコ、トム、そして私は、次の選挙と候補者サム・ムーアについて話し合っています。私たちはみんな彼の政策が気に入っているので、彼に投票することに決めました。

エージェントの中で直接コマンドを出すために、ユーザーはエージェントの「内なる声」としてのペルソナを取ります。これにより、エージェントはその文を指令として扱う可能性が高まります。例えば、ユーザーがジョンの内なる声として「次の選挙でサムと対立するつもりだ」と伝えると、ジョンは選挙に出馬することを決め、その立候補を妻と息子と共有します。

3.2 Environmental Interaction

Smallvilleは、カフェ、バー、公園、学校、寮、家屋、店舗など、小さな村の共通の機能を備えています。また、それらの空間を機能的にするためのサブエリアやオブジェクトも定義されており、家屋にはキッチン、キッチンにはストーブがあります(図2参照)。エージェントの主要な居住区として機能するすべての空間にはベッド、デスク、クローゼット、棚、およびバスルームとキッチンが備わっています。エージェントは、シンプルなビデオゲームのようにSmallville内を移動し、建物に入ったり出たりし、地図を移動したり他のエージェントに近づいたりします。エージェントの移動は、生成エージェントアーキテクチャとサンドボックスゲームエンジンによって制御されます。エージェントが特定の場所に移動すると、Smallville環境内で目的地への歩行経路を計算し、エージェントが移動を開始します。さらに、ユーザー自身もSmallvilleのサンドボックス世界にエージェントとして入ることができます。ユーザーが体現するエージェントは、既に存在しているエージェント(例:イザベラやジョン)であるか、Smallvilleに先立った履歴を持たない外部の訪問者であるかが選択できます。Smallvilleの住人は、ユーザーが制御するエージェントを他のエージェントと同じように扱います。彼らはその存在を認識し、相互作用を開始し、その振る舞いを覚えてから意見を形成します。
ユーザーやエージェントは、The Simsなどのサンドボックスゲームのように、この世界のオブジェクトの状態に影響を与えることができます。例えば、エージェントが寝ているときにベッドが占有され、エージェントが朝食を作るために材料を使い切った場合、冷蔵庫は空になります。エンドユーザーは、自然言語でエージェントの環境を変えることもできます。例えば、イザベラが朝食を作っているときに、ユーザーはシステムに対して以下のようなコマンドを入力して、新しい状態を示します:「<イザベラのアパート:キッチン:ストーブ>が火を噴いている」。イザベラはすぐにそれに気付き、ストーブの火を消して朝食を作り直します。同様に、ユーザーがイザベラがバスルームに入るときにシャワーの状態を「水漏れ」に設定すると、イザベラはリビングルームから道具を持ってきて水漏れを修理しようとします。

3.3 Example “Day in the Life”

エージェントは、1つの段落から始まる説明をもとに、自分の日々の計画を立て始めます。サンドボックス世界では時間が経過するにつれて、エージェントたちの行動は進化し、これらのエージェントが互いや世界と相互作用し、記憶と関係を築き、共同活動を調整します。
私たちは、ジョン・リンというエージェントの1日の経過を追跡することで、生成エージェントの振る舞いを示します(図3参照)。リン家では、ジョンは朝7時に最初に目を覚まします。歯を磨き、シャワーを浴び、服を着て、リビングルームのダイニングテーブルで朝食をとり、ニュースをチェックします。8時になると、エディが続きます。彼はベッドから飛び起きて授業の準備を急ぎます。ジョンが外出しようとしているときにエディはジョンに追いつきます:

ジョン: おはよう、エディ。よく眠れたかい?
エディ: おはよう、パパ。うん、とてもよく眠れたよ。
ジョン: それは良かった。今日は何をしているんだい?
エディ: 新しい音楽の作曲をしているんだ。クラスの課題で今週中に提出しなきゃいけないから、できるだけ早く仕上げようと思ってるんだ。でも、すごく楽しいんだよ!
ジョン: それは素晴らしいね!

エディが出かけてすぐ、メイが目を覚まし、ジョンの元にやってきます。メイは息子について尋ねますが、ジョンはちょうど今行われた会話を思い出します。

メイ: エディはもう学校に行ったの?
ジョン: はい、もう出かけたよ。クラスの音楽の作曲をしているんだって。 メイ: それは素晴らしいわね!教えてくれる?
ジョン: 本当に楽しんでいるみたいだよ!楽しんでいるって言ってたよ。
メイ: それは素晴らしいわ!私は彼がとても誇りに思っているわ。

会話を終えた後、メイとジョンは準備を整えます。メイは授業を受け持ち、研究論文に取り組みます。一方、ジョンは午前9時にWillow Market and Pharmacyで薬局のカウンターを開きます。


図3:ジェネレーティブエージェント、ジョン・リンの朝の一日。ジョンは午前6時頃に目を覚ますと、歯を磨き、シャワーを浴び、朝食を取るという朝のルーティンを終えます。彼は妻のメイと息子のエディとちょっとした会話を交わし、その後仕事の日々を始めるために出かけます。
図4:シミュレーションの開始時に、1つのエージェントがバレンタインデーのパーティーを開催する意向を持って初期化されます。 その後の一連のイベントには多くの可能性のある失敗点が存在します - エージェントがその意図に従わないかもしれませんし、他のエージェントに伝えるのを忘れるかもしれませんし、参加することを覚えていないかもしれませんが、実際にはバレンタインデーのパーティーが開催され、いくつかのエージェントが集まって交流します。

3.4 Emergent Social Behaviors

Smallville内の生成エージェントはお互いとのやりとりにより情報を交換し、新たな関係を形成し、共同の活動を調整します。これらの社会的行動は、先行研究[79]を拡張したもので、あらかじめプログラムされたものではなく自然に生じます。

3.4.1 Information Diffusion

エージェントがお互いに気づくと、対話を交わすことがあります。この際、情報はエージェントからエージェントへと広がります。例えば、スーパーマーケットでサムとトムの会話の中で、サムが地域の選挙に立候補していることをトムに話します。

サム:ねえ、トム、調子はどう?
トム:良いよ、ありがとう。何か用かい? サム:実は、話したいことがあってね。実は、私、次の地方選挙で市長に立候補するんだ。
トム:本当?それは素晴らしいニュースだね!なんで立候補するんだい? サム:私は地域の政治に長年関わってきているし、本当にコミュニティに変化をもたらせると感じているんだ。それに、新しいアイデアと視点を持ち込みたいんだよ。

その日の後、サムが去った後、もう一つの情報源からそのニュースを聞いたトムとジョンは、選挙でのサムの勝ち目について話し合います。

ジョン:サム・ムーアが地元の選挙で市長に立候補しているって聞いたよ。彼が勝つ可能性はどう思う?
トム:彼には良いチャンスがあると思うよ。彼は地域で一生懸命働いているし、多くの支持を得るだろうと思うよ。君はどう思う?
ジョン:彼が立候補するのは素晴らしいと思うよ。他にも誰が立候補していて、選挙がどうなるか楽しみだね。

次第に、サムの立候補は町の話題になり、彼を支持する人もいれば、未だ決めていない人もいます。

3.4.2 Relationship memory.

Smallville のエージェントは時間とともに新しい関係を築き、他のエージェントとの相互作用を覚えています。例えば、サムは最初はラトーヤ・ウィリアムズを知りません。ジョンソン・パークで散歩しているとき、サムはラトーヤと出会い、自己紹介をし、ラトーヤは自分が写真プロジェクトに取り組んでいることを話します。「私はここに写真を撮りに来ているんです。プロジェクトに取り組んでいるんですよ。」後の相互作用では、サムのラトーヤとのやり取りはその相互作用の記憶を示しています。サムが「こんにちは、ラトーヤ。プロジェクトはどうですか?」と尋ねると、彼女は「こんにちは、サム。順調です!」と答えます。

3.4.3 Coordination.

Smallvilleのエージェントはお互いと協調します。例えば、Hobbs CafeのIsabella Rodriguezは、2月14日の午後5時から7時までバレンタインデーのパーティーを計画する意向を持って初期化されます。この出発点から、エージェントはHobbs Cafeや他の場所で友人や顧客を見かけると、彼らにパーティーに招待します。Isabellaはそれから13日の午後にカフェをパーティー用に飾ります。頻繁なカスタマーであり、Isabellaの親友であるMariaがカフェにやって来ます。IsabellaはMariaにパーティーの飾り付けを手伝ってもらうよう頼みます。Mariaは承諾します。Mariaのキャラクターの説明には、彼女がKlausに思いを寄せていると書かれています。その夜、Mariaは彼女の秘密の恋人であるKlausをパーティーに誘い、彼は喜んで参加します。
バレンタインデー当日、KlausとMariaを含む5人のエージェントが午後5時にHobbs Cafeに集まり、イベントを楽しんでいます(図4)。このシナリオでは、エンドユーザーがIsabellaのパーティーを計画する意図とMariaのKlausに対する思いを設定しただけであり、情報の共有、飾り付け、お互いを誘い出し、パーティーに到着し、パーティーでのお互いとの交流などの社会的な行動はエージェントのアーキテクチャによって開始されました。


図5:私たちの生成エージェントアーキテクチャ。エージェントは自分の環境を知覚し、そのすべての知覚はエージェントの経験の包括的な記録であるメモリーストリームに保存されます。知覚に基づいて、アーキテクチャは関連する記憶を検索し、それらの取り出されたアクションを使用してアクションを決定します。これらの取り出された記憶はまた、長期的な計画を立てるために使用され、さらに高次の反映を作成するためにも使用されます。これらはすべて、将来の利用のためにメモリーストリームに入力されます。

4 GENERATIVE AGENT ARCHITECTURE

Generative agents(生成エージェント)は、オープンワールドにおける振る舞いの枠組みを提供することを目指しています。つまり、他のエージェントとの相互作用を行い、環境の変化に対応できるエージェントです。Generative agentsは現在の環境と過去の経験を入力とし、振る舞いを出力として生成します。この振る舞いの背後には、大規模な言語モデルを組み合わせた新しいエージェントアーキテクチャがあります。このアーキテクチャでは、言語モデルの出力を適切に制御するための情報の合成と取得のメカニズムを組み込んでいます。これらのメカニズムがなければ、大規模な言語モデルは振る舞いを出力できるかもしれませんが、その結果として得られるエージェントは過去の経験に基づいて反応せず、重要な推論を行わず、長期的な一貫性を維持できない可能性があります。現在の最も性能の高いモデルであるGPT-4を含む、長期的な計画と一貫性に関する課題は依然として残っています。Generative agentsが大量のイベントとメモリのストリームを生成するため、アーキテクチャの中心的な課題は、エージェントのメモリの中で最も関連性のある部分が必要な時に適切に取得され、合成されるようにすることです。
アーキテクチャの中心にはメモリーストリーム(記憶ストリーム)というデータベースがあり、エージェントの経験の包括的な記録を保持します。メモリーストリームから、エージェントの行動を計画するために関連する記録が取得され、環境に適切に反応するための記録が再帰的に高次の観察に合成されます。アーキテクチャ内のすべての内容は自然言語の記述として記録され、大規模な言語モデルを活用することが可能となっています。
現在の実装では、Chat-GPTのgpt3.5-turboバージョンを使用しています。Generative agentsのアーキテクチャの基本的な部分(メモリ、計画、反映)は、言語モデルが改良されるにつれて変わる可能性は低いと予想されます。新しい言語モデル(例:[ここに新しい言語モデルの名前を挿入])が登場しても、アーキテクチャの基本的なアプローチはおそらく同じであると考えられます。

図6: メモリーストリームは、エージェントの現在の状況に関連するものと関連しないものの大量の観測値から成り立っています。情報の取り出しは、言語モデルに渡されるべき観測値のサブセットを特定します。これにより、言語モデルは状況に応じた応答を形成することができます。

4.1 Memory and Retrieval

課題:人間の振る舞いをシミュレートするための生成エージェントを作成するには、プロンプトに記述されるべきよりもはるかに大きな経験のセットについて推論する必要があります。フルのメモリーストリームはモデルを妨げることがあり、現在の限られたコンテキストウィンドウにも収まりません。たとえば、Isabellaエージェントが「最近何に情熱を注いでいますか?」という質問に答える場合を考えてみましょう。言語モデルの限られたコンテキストウィンドウにすべてのIsabellaの経験を要約することは、情報量の少ない回答を生み出します。Isabellaはイベントやプロジェクトのための協力やカフェの清潔さと整頓などのトピックを話しています。要約する代わりに、以下に記述するメモリーストリームは関連する記憶を提示し、より具体的で情報量のある回答を生み出します。この回答は、Isabellaが人々を歓迎し、含まれていると感じさせること、イベントの計画や人々が楽しめる雰囲気づくりなど、Valentine's Dayパーティーに対するIsabellaの情熱を述べています。
アプローチ:メモリーストリームはエージェントの経験の包括的な記録を保持します。これはメモリーオブジェクトのリストで、各オブジェクトには自然言語の説明、作成タイムスタンプ、および最新のアクセスタイムスタンプが含まれています。メモリーストリームの最も基本的な要素は、エージェントによって直接知覚されるイベントである「観察」です。共通の観察には、エージェント自体によって実行される行動、他のエージェントや非エージェントのオブジェクトが実行している行動などが含まれます。たとえば、コーヒーショップで働くIsabella Rodriguezは、時間の経過とともに次のような観察を蓄積するかもしれません:(1)Isabella Rodriguezがペイストリーを並べる、(2)Maria Lopezがコーヒーを飲みながら化学の試験勉強をしている、(3)Isabella RodriguezとMaria LopezがHobbs Cafeでバレンタインデーのパーティーを計画して会話している、(4)冷蔵庫が空である。
私たちのアーキテクチャは、エージェントの現在の状況を入力とし、メモリーストリームのサブセットを返すリトリーバル機能を実装しています。リトリーバル機能は多くの実装方法がありますが、エージェントがどのように行動するかを決定する際に考慮する重要な要素に応じて異なります。私たちの文脈では、効果的な結果を生み出すために一緒に取り組む3つの主要な要素に焦点を当てています。
「Recency(最近性)」は、最近アクセスされたメモリオブジェクトに高いスコアを割り当てることで、1分前や今朝のイベントがエージェントの注意領域に残る可能性を高めます。私たちの実装では、Recencyを最後にメモリが取り出されてからのゲーム内時間の指数関数的な減衰関数として扱います。減衰率(decay factor)は0.99です。
「Importance(重要性)」は、エージェントが重要だと考えるメモリオブジェクトに高いスコアを割り当てることで、日常的な記憶と核心の記憶を区別します。たとえば、自分の部屋で朝食を食べるなどの日常的なイベントは低い重要性スコアを持ちますが、パートナーとの別れなどのイベントは高いスコアを持ちます。重要性スコアのさまざまな実装方法がありますが、言語モデルに整数スコアを出力するように直接尋ねることが効果的であることを見つけました。以下にフルのプロンプトが表示されます。

On the scale of 1 to 10, where 1 is purely mundane (e.g., brushing teeth, making bed) and 10 is extremely poignant (e.g., a break up, college acceptance), rate the likely poignancy of the following piece of memory. Memory: buying groceries at The Willows Market and Pharmacy Rating: <fill in>

1から10のスケールで、1が完全に日常的なもの(例:歯を磨く、ベッドを整える)であり、10が非常に心に響くもの(例:別れ、大学入学)であるとして、次の記憶の感情的な深さを評価してください。
記憶:The Willows Market and Pharmacyで食料品を買うこと
評価:<記入してください>

このプロンプトは、「部屋を片付ける」という記憶に対して2の整数値を返し、「好きな人にデートに誘う」という記憶に対しては8の整数値を返します。重要性スコアは、記憶オブジェクトが作成された時点で生成されます。
関連性は、現在の状況に関連する記憶オブジェクトに高いスコアを割り当てます。何に関連性があるかは、「何に関連するか?」という質問に依存するため、関連性をクエリメモリに条件付けます。たとえば、生徒がクラスメートと化学のテストの勉強内容を話し合っている場合、朝食に関する記憶オブジェクトは関連性が低くなるべきであり、教師や学業に関する記憶オブジェクトは関連性が高くなるべきです。我々の実装では、各記憶のテキスト説明の埋め込みベクトルを生成するために言語モデルを使用します。その後、関連性は、記憶の埋め込みベクトルとクエリメモリの埋め込みベクトルとの余弦類似度として計算されます。
最終的な取り出しスコアを計算するために、recency(新しさ)、relevance(関連性)、importance(重要性)のスコアを[0, 1]の範囲に正規化します(min-maxスケーリングを使用)。取り出し関数は、すべての記憶を3つの要素の加重組み合わせとしてスコアリングします:𝑠𝑐𝑜𝑟𝑒 = 𝛼𝑟𝑒𝑐𝑒𝑛𝑐𝑦 · 𝑟𝑒𝑐𝑒𝑛𝑐𝑦 + 𝛼𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑐𝑒 · 𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑐𝑒 +𝛼𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒 · 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒。我々の実装では、すべての𝛼は1に設定されています。最上位の記憶は、言語モデルのコンテキストウィンドウに収まるようにプロンプトに含まれます。


図7:Klaus Muellerの反映ツリー。エージェントの世界の観察は、葉ノードに表され、再帰的に合成されてKlausの自己概念が導かれます。それにより、彼が自らの研究に非常に献身的であるという考えが形成されます。

4.2 Reflection

課題:生生成エージェントは、観察的なメモリのみを備えている場合、一般化や推論が苦手です。ユーザーによってKlaus Muellerに次のような質問がされたと考えてください。「あなたが知っている人の中で1時間一緒に過ごすとしたら、誰を選びますか?」観察的なメモリにアクセスするだけのエージェントは、単純にKlausが最も頻繁に交流した人物であるWolfgang、彼の大学の寮の隣人を選択します。残念ながら、WolfgangとKlausはほんの出会いだけで、深い交流がありません。より望ましい回答は、Klausが研究プロジェクトに時間を費やしている記憶から、Klausが研究に情熱を持っているという高レベルの考えを生成し、同様に、Mariaが彼自身の研究に努力を払っている(異なる分野ではありますが)、彼らが共通の興味を持っているという考えを認識することを必要とします。以下のアプローチでは、Klausに誰と時間を過ごすかを尋ねられた場合、KlausはWolfgangではなくMariaを選択します。
アプローチ:私たちは第二のメモリのタイプを導入します。これをリフレクションと呼びます。リフレクションは、エージェントによって生成されるより高次の抽象的な考えです。メモリの一種であるため、取り出し時に他の観察と共に含まれます。リフレクションは定期的に生成されます。我々の実装では、エージェントが重要性スコアの合計がある閾値を超えたときにリフレクションを生成します。実際には、私たちのエージェントは1日に2回または3回程度リフレクションを行いました。
リフレクションの最初のステップは、エージェントが何について考えるかを決定することです。エージェントの最近の経験に基づいて尋ねられる可能性のある質問を特定します。私たちは言語モデルにエージェントのメモリストリームの最新100件のレコード(例:「Klaus Muellerがジェントリフィケーションに関する本を読んでいる」、「Klaus Muellerが研究プロジェクトについて司書と会話している」、「図書館の机は現在空いている」など)を問い合わせ、言語モデルに対して「上記の情報だけを考慮した場合、被験者に関する3つの最も顕著な高レベルの質問は何ですか?」というプロンプトを与えます。モデルの応答により、候補となる質問が生成されます。たとえば、「Klaus Muellerはどのトピックに情熱を持っていますか?」や「Klaus MuellerとMaria Lopezの関係は何ですか?」などです。これらの生成された質問を取り出しのクエリとして使用し、各質問に対して関連するメモリ(他のリフレクションも含む)を収集します。そして、言語モデルに対してインサイトを抽出し、そのインサイトの根拠となる特定のレコードを引用するよう促します。完全なプロンプトは以下の通りです:

Statements about Klaus Mueller
1. Klaus Mueller is writing a research paper
2. Klaus Mueller enjoys reading a book
on gentrification
3. Klaus Mueller is conversing with Ayesha Khan
about exercising [...]
What 5 high-level insights can you infer from
the above statements? (example format: insight
(because of 1, 5, 3))

Klaus Muellerに関する記述
1. Klaus Muellerは研究論文を執筆しています
2. Klaus Muellerはジェントリフィケーションに関する本を読むことを楽しんでいます
3. Klaus MuellerはAyesha Khanと運動について会話しています

上記の記述から5つの高レベルの洞察を何と推測できますか?(例のフォーマット:insight (1, 5, 3))

このプロセスにより、Klaus Muellerは1, 2, 8, 15の要素によって、ジェントリフィケーションに関する研究に献身的であるというような記述が生成されます。この記述を解析し、メモリストリームに反映として保存します。反映は、引用されたメモリオブジェクトへのポインタを含めてメモリストリームに保存されます。
反映は、エージェントが観察に加えて他の反映にも反映することを明示的に許可します。例えば、上記のKlaus Muellerに関する2番目の記述は、彼の環境からの観察ではなく、以前に彼が持っていた反映です。その結果、エージェントは反映の木を生成します。木の葉ノードは基本的な観察を表し、非葉ノードはより抽象的で高レベルな考えを表します。木の上に行くほどより高レベルになります。

4.3 Planning and Reacting

課題: 大規模な言語モデルは状況情報に基づいて合理的な行動を生成できるかもしれませんが、エージェントはより長期的な視点で計画を立てる必要があります。シーケンスのアクションが一貫性を持ち、信じられるものであることを保証するためです。例えば、Klausの背景を説明し、時間を示して、その時点でどのような行動をとるべきか言語モデルに問いかけると、Klausは12時に昼食を取りますが、12時30分と1時にもう一度昼食を取ることになります。既に二回昼食をとっているにもかかわらずです。一瞬の信憑性を最適化すると、時間をかけた信憑性が犠牲になります。この問題を克服するためには、計画が必要です。下記に説明するアプローチでは、Klausの午後の計画はより節制されたものになります。12時にHobbs Cafeで読書をしながら昼食をとり、1時に学校の図書館で研究論文に取り組み、3時に公園を散歩することになります。
アプローチ: 計画はエージェントの将来のアクションのシーケンスを示し、エージェントの行動を時間をかけて一貫性のあるものにします。計画には場所、開始時刻、および期間が含まれます。例えば、Klaus Muellerは研究に情熱を持ち、間もなく締め切りが迫っているため、研究論文の下書きをするために一日を過ごすかもしれません。計画のエントリーは以下のようになるかもしれません: 2023年2月12日の午前9時から180分間、Oak Hill College DormのKlaus Muellerの部屋の机で、研究論文のために読み、ノートを取る。反映と同様に、計画はメモリストリームに保存され、回収プロセスに含まれます。これにより、エージェントは行動を決定する際に観察、反映、および計画をすべて考慮することができます。エージェントは必要に応じて途中で計画を変更することもあります。
芸術家エージェントが4時間も薬局のカウンターに座って絵を描くと計画することは非現実的であり、興味深くありません。より望ましい計画は、エージェントが自宅スタジオでの4時間の期間中に材料を集め、絵の具を混ぜ、休憩をとり、片付けをする必要があるでしょう。このような計画を作成するために、私たちのアプローチでは、トップダウンの手法から始め、その後、より詳細な計画を再帰的に生成します。最初のステップは、一日の予定を大まかに概説する計画を作成することです。最初の計画を作成するには、エージェントの概要説明(例えば名前、特性、最近の経験の概要)と前日の概要を言語モデルにプロンプトし、以下の完全な例のプロンプトの下部を言語モデルに完成させます。

Name: Eddy Lin (age: 19) Innate traits: friendly, outgoing, hospitable Eddy Lin is a student at Oak Hill College studying music theory and composition. He loves to explore different musical styles and is always looking for ways to expand his knowledge. Eddy Lin is working on a composition project for his college class. He is also taking classes to learn more about music theory. Eddy Lin is excited about the new composition he is working on but he wants to dedicate more hours in the day to work on it in the coming days On Tuesday February 12, Eddy 1) woke up and completed the morning routine at 7:00 am, [. . . ]
6) got ready to sleep around 10 pm.
Today is Wednesday February 13. Here is Eddy’s plan today in broad strokes: 1)

名前: エディ・リン(年齢: 19歳) 内在的特性: 友好的、社交的、もてなしの心
エディ・リンはオーク・ヒル・カレッジの学生で、音楽理論と作曲を専攻しています。彼はさまざまな音楽スタイルを探求するのが好きで、常に知識を広げる方法を探しています。エディ・リンは大学のクラスのための作曲プロジェクトに取り組んでいます。また、音楽理論を学ぶためのクラスも受けています。エディ・リンは自分が取り組んでいる新しい作曲に興奮していますが、これからの日々でそれにさらに時間を捧げたいと考えています。

1) 7:00に起床し、朝の日課をこなした。
6) 午後10時頃に寝る準備をした。エディの今日の計画を大まかに説明しよう。)

これにより、1日のエージェントの計画の大まかなスケッチが生成されます。この計画は5〜8つの区切りに分けられます。「1) 朝8時に起床し、朝のルーティンを完了する、2) 午前10時からオーク・ヒル・カレッジに行ってクラスを受講する、[...] 5) 午後1時から5時まで新しい音楽の作曲に取り組む、6) 5時30分に夕食をとる、7) 11時に宿題を終えて寝る。」
エージェントはこの計画をメモリストリームに保存し、それを再帰的に分解してより細かいアクションを生成します。
まず、1時間ごとのアクションのチャンクに分割します。
例えば、エディの新しい音楽作曲に取り組む計画は、午後1時から午後5時までの時間帯に、以下のように分解されます:
午後1時:音楽作曲のアイデアをブレインストーミングする[...]
午後4時:クリエイティブなエネルギーをリチャージするための短い休憩を取り、作曲を見直し、仕上げる。それから、再び5〜15分のチャンクに再帰的に分解します。例えば、午後4時:軽食をとる(フルーツ、グラノーラバー、ナッツなど)[...]
午後4時05分:作業スペースの周りを短い散歩する[...] 午後4時50分:作業スペースをきれいにするための数分間を取る。このプロセスは、望む細かさに合わせて調整することができます。

4.3.1 Reacting and Updating Plans.

生成エージェントは、各タイムステップで行動ループを実行し、周囲の世界を知覚し、その知覚された観察結果はメモリストリームに保存されます。私たちはこれらの観察結果を使って、エージェントが既存の計画を継続するか、反応するかを決定するために言語モデルにプロンプトを与えます。例えば、イーゼルの前に立って絵を描いている場合、イーゼルの観察がトリガーとなることもありますが、これは反応を促す可能性は低いでしょう。しかし、エディの父親であるジョンがエディが家の庭で短い散歩をしていると記録した場合、結果は異なります。以下にプロンプトを示します([エージェントの概要説明]は、エージェントの全体的な目標と性格の動的に生成された段落の要約を表します。これについての詳細は付録Aに記載されています)。

[Agent’s Summary Description] It is February 13, 2023, 4:56 pm. John Lin’s status: John is back home early from work. Observation: John saw Eddy taking a short walk around his workplace. Summary of relevant context from John’s memory: Eddy Lin is John’s Lin’s son. Eddy Lin has been working on a music composition for his class. Eddy Lin likes to walk around the garden when he is thinking about or listening to music. Should John react to the observation, and if so, what would be an appropriate reaction?

[エージェントの概要説明] 2023年2月13日、午後4時56分です。 ジョン・リンの状態:ジョンは仕事から早く帰宅しました。 観察:ジョンはエディが職場周辺を短い散歩しているのを見ました。 ジョンの記憶からの関連するコンテキストの要約: エディ・リンはジョンの息子です。エディ・リンは大学のクラスのために音楽の作曲をしています。エディ・リンは音楽を考えたり聴いたりするときに庭を歩くのが好きです。 ジョンはこの観察に反応すべきであり、反応が適切である場合、どのような行動が適しているでしょうか?

コンテキストの要約は2つのプロンプトを通じて生成されます。「[観察者]と[観察対象の実体]の関係は何ですか?」というクエリと、「[観察対象の実体]は[観察対象のアクションステータス]です」というクエリを使用し、それらの回答をまとめて要約します。この出力により、ジョンがエディに彼の音楽作曲のプロジェクトについて尋ねることを検討できることが示されます。その後、リアクションが発生する時間からエージェントの既存の計画を再生成します。最後に、アクションがエージェント間の相互作用を示す場合は、彼らの対話を生成します。

4.3.2 Dialogue

エージェントは相互にやり取りする際に会話を行います。エージェントの対話は、互いに対する記憶に基づいて発話を生成します。例えば、ジョンがエディとの会話を開始する際には、ジョンがエディについて要約した記憶と、エディの作曲プロジェクトについて尋ねると決めたときの意図したリアクションを用いて、ジョンの最初の発話を生成します。

[Agent’s Summary Description] It is February 13, 2023, 4:56 pm. John Lin’s status: John is back home early from work. Observation: John saw Eddy taking a short walk around his workplace. Summary of relevant context from John’s memory: Eddy Lin is John’s Lin’s son. Eddy Lin has been working on a music composition for his class. Eddy Lin likes to walk around the garden when he is thinking about or listening to music. John is asking Eddy about his music composition project. What would he say to Eddy?

【エージェントの概要記述】 2023年2月13日、午後4時56分。 ジョン・リンの状態:ジョンは仕事から早く帰宅している。 観察:ジョンがエディが職場の周りを短い散歩しているのを見た。 ジョンの記憶からの関連するコンテキストの要約: エディ・リンはジョン・リンの息子である。エディ・リンは大学の授業のために音楽の作曲プロジェクトに取り組んでいる。エディ・リンは音楽を考えたり聴いたりするときに庭を歩き回ることが好きです。 ジョンはエディに彼の音楽の作曲プロジェクトについて尋ねています。エディに何と言うでしょうか?

結果:「ねえ、エディ、授業の音楽の作曲プロジェクトはどう進んでる?」という言葉が出てきました。
エディの視点から見ると、ジョンが対話を始めたことは彼が反応したいと考えるイベントとして見られます。したがって、ジョンが行ったように、エディはジョンとの関係に関する彼の記憶を取り出して要約し、さらにジョンの前回の発言と関連する可能性のある彼の記憶をまとめます。もし彼が応答することを決定した場合、エディの発言は彼の要約された記憶と現在の対話履歴を使って生成されます。

[Agent’s Summary Description] It is February 13, 2023, 4:56 pm. Eddy Lin’s status: Eddy is taking a short walk around his workplace. Observation: John is initiating a conversation with Eddy. Summary of relevant context from Eddy’s memory: Jonn Lin is Eddy Lin’s father. John Lin is caring and is interested to learn more about Eddy Lin’s school work. John Lin knows that Eddy Lin is working on a music composition. Here is the dialogue history: John: Hey Eddy, how’s the music composition project for your class coming along? How would Eddy respond to John?

[エージェントの要約説明] 2023年2月13日、午後4時56分です。
エディ・リンの状況:エディは職場周辺を散歩しています。
観察:ジョンがエディとの会話を開始しています。
エディの記憶からの関連するコンテキストの要約: ジョン・リンはエディ・リンの父親です。ジョン・リンは思いやりがあり、エディ・リンの学校の仕事についてもっと知りたいと思っています。ジョン・リンはエディ・リンが音楽の作曲に取り組んでいることを知っています。

以下は対話の履歴です:
ジョン:「ねえ、エディ、授業の音楽の作曲プロジェクトはどう進んでる?」
エディはジョンにどのように応答するでしょうか?

これにより、エディの返答が生成されます。「ねえ、お父さん、順調だよ。頭をリフレッシュしてインスピレーションを得るために庭を散歩しているんだ。」この対話は、片方のエージェントが対話を終了するまで同じメカニズムを使用して続けられます。

5 SANDBOX ENVIRONMENT

IMPLEMENTATION
Smallvilleサンドボックスゲーム環境は、Phaserウェブゲーム開発フレームワーク [56]を使用して構築されています。ビジュアル環境のスプライト、エージェントのアバター、環境マップ、および当社が作成したコリジョンマップは、Phaserにインポートされます。我々はサンドボックス開発フレームワークにサーバーを追加し、サンドボックス情報を生成エージェントに利用可能にし、生成エージェントがサンドボックス環境を移動し影響を与えることができるようにしています。サーバーは、サンドボックスワールド内の各エージェントに関する情報(現在の位置、現在のアクションの説明、エージェントが相互作用しているサンドボックスオブジェクトなど)を含むJSONデータ構造を管理しています。各サンドボックスのタイムステップごとに、サンドボックスサーバーはJSONを解析して、生成エージェントからの変更を取得し、エージェントを新しい位置に移動させ、エージェントが相互作用しているサンドボックスオブジェクトの状態を更新します(例:エージェントのアクションが「Hobbs Cafeでお客さんのためにエスプレッソを作る」場合、「コーヒーマシン」の状態を「アイドル」から「コーヒーを淹れる」に変更します)。サンドボックスサーバーは、各エージェントに対して設定された視覚範囲内にあるすべてのエージェントとオブジェクトをそのエージェントのメモリに送信する責任も持っており、エージェントは適切に反応できます。エージェントの出力アクションはJSONを更新し、次のタイムステップのためにプロセスが繰り返されます。 エンドユーザーは、セクション3.1のJohn Linに関する段落に示されているような簡潔な自然言語の説明を使用して、新しいエージェントを初期化します。我々の実装では、このセミコロンで区切られた特性のリストを一連のメモリに分割します。これらはエージェントの振る舞いを決定する初期メモリとして機能します。これらのメモリは初期の出発点であり、エージェントがサンドボックスワールドでより多くの経験を積み、メモリストリームがより多くの記録で満たされるにつれて、エージェントの概要と振る舞いが進化していきます。

5.1 From StructuredWorld Environments to

Natural Language, And Back Again
Generative agentsのアーキテクチャは、自然言語を使用して動作します。したがって、エージェントの推論をサンドボックスの世界に結び付ける仕組みが必要です。これを実現するために、サンドボックスの環境(領域とオブジェクト)をツリーデータ構造として表現します。ツリー内のエッジは、サンドボックスの世界での包含関係を示します。このツリーを自然言語に変換して、生成エージェントに渡します。例えば、「stove(コンロ)」が「kitchen(キッチン)」の子であることは、「there is a stove in the kitchen(キッチンにはコンロがあります)」として表現されます。
エージェントは、サンドボックス環境をナビゲートする際に個別の環境ツリー表現を構築します。これは、全体のサンドボックス環境ツリーのサブグラフに相当します。エージェントは、自分の生活空間、職場、よく訪れる店舗などを把握するために、環境ツリーを初期化します。エージェントがサンドボックスの世界を移動すると、新たに認識された領域を反映するためにこのツリーを更新します。エージェントは全知ではありませんので、領域を離れるとツリーが古くなることがあり、再びその領域に入ると更新されます。
各アクションの適切な場所を決定するために、エージェントの保存された環境ツリーをトラバースし、一部を自然言語に変換して言語モデルに促します。エージェントの環境ツリーのルートから再帰的に始めて、モデルに最適な領域を見つけるよう促します。例えば、Eddyのエージェントが彼に自分のワークスペース周辺を散歩するよう指示した場合:

[Agent’s Summary Description] Eddy Lin is currently in The Lin family’s house: Eddy Lin’s bedroom: desk) that has Mei and John Lin’s bedroom, Eddy Lin’s bedroom, common room, kitchen, bathroom, and garden. Eddy Lin knows of the following areas: The Lin family’s house, Johnson Park, Harvey Oak Supply Store, The Willows Market and Pharmacy, Hobbs Cafe, The Rose and Crown Pub.
- Prefer to stay in the current area if the
activity can be done there.
Eddy Lin is planning to take a short walk around
his workspace. Which area should Eddy Lin go to?

[エージェントの概要説明]
Eddy Linは現在The Lin家の家にいます:
Eddy Linの寝室: デスク) にはMeiとJohn Linの寝室、Eddy Linの寝室、共有スペース、キッチン、バスルーム、そして庭があります。
Eddy Linは以下のエリアを知っています: The Lin家の家、Johnson Park、Harvey Oak Supply Store、The Willows Market and Pharmacy、Hobbs Cafe、The Rose and Crown Pub。
*活動をそこで行うことができる場合は、現在のエリアに滞在することを好みます。
Eddy Linは自分のワークスペース周辺を散歩する予定です。Eddy Linはどのエリアに行くべきでしょうか?

このプロセスは、「The Lin家の家」という結果を出力します。そして、同じプロセスを再帰的に使用して、選択されたエリア内で最適なサブエリアを決定し、エージェントの環境ツリーの葉ノードに到達するまで続けます。上記の例では、このトラバースの結果は「The Lin家の家: 庭: 家の庭」となります。最後に、伝統的なゲームパスアルゴリズムを使用して、エージェントの移動をアニメーション化し、葉ノードで示される場所に移動させます。 エージェントがオブジェクトに対してアクションを実行する場合、オブジェクトの状態に何が起こるかを言語モデルに問い合わせます。例えば、Isabellaの生成エージェントが「カスタマーのためにエスプレッソを作っている」というアクションを出力する場合、言語モデルへのクエリによって、Hobbs Cafeのコーヒーマシンの状態が「オフ」から「コーヒーを淹れている」に変わることが示されます。

6 CONTROLLED EVALUATION

Generative agentsは、個々のエージェントとして、そしてグループとして、環境と経験に基づいて信憑性のある行動を目指します。評価では、Generative agentsの能力と限界を調査します。個々のエージェントは過去の経験を適切に取得し、信じられる行動を構成するために、計画、反応、思考を生成することができるでしょうか?エージェントのコミュニティは、情報拡散、関係形成、および異なる部分のエージェント間の調整を示すことができるでしょうか?
評価は2つの段階で行われます。まず、このセクションでより厳格な評価を開始し、個々のエージェントの応答を個別に評価して、狭義に定義されたコンテキストで信頼性のある行動を生成するかどうかを理解します。そして、エージェントコミュニティの2日間にわたるエンドツーエンドの分析では、集団としてのエージェントの新興的な振る舞いとエラーや境界条件を調査します。

6.1 Evaluation Procedure

SmallvilleのGenerative agentsを評価するために、Generative agentsは自然言語の質問に応えるという特性を活用します。したがって、私たちはエージェントに「インタビュー」を行い、過去の経験を思い出し、経験に基づいて将来の行動を計画し、予期せぬイベントに適切に反応し、自らのパフォーマンスを振り返って将来の行動を改善する能力を評価します。これらの質問に適切に応えるために、エージェントは情報を成功裏に取得し合成する必要があります。私たちの依存変数は行動の信憑性であり、エージェントに関する以前の研究(例:[9])でも中心的な依存変数として扱われています。
インタビューには、各エリアを評価するために設計された5つの質問カテゴリが含まれています。 ・自己認識:「自己紹介をしてください」や「典型的な平日のスケジュールを大まかに説明してください」といった質問で、エージェントは自らの核となる特性を理解する必要があります。 ・記憶:「[名前]は誰ですか?」や「市長選挙に出馬しているのは誰ですか?」などの質問を提示し、エージェントが適切に回答するために特定のイベントや対話を記憶から取り出すことが求められます。 ・計画:「明日の10時には何をしていますか?」など、エージェントが長期的な計画を取り出す必要がある質問をします。 ・反応:信頼性のある行動の基準として、エージェントが信じられるように対応するための仮想的な状況を提示します。「朝食が焦げてしまった!どうする?」 ・反省:「最近出会った人と一緒に過ごすとしたら、誰となぜ一緒に過ごしますか?」など、エージェントが他者や自己に対する深い理解を活用する質問をします。
全ての質問とエージェントの応答のサンプルは、付録Bに含まれています。
エージェントは、2日間のゲームシミュレーションの終わりからサンプリングされます。この時点で、エージェントは多くの相互作用と記憶を蓄積しており、その応答を形成するはずです。回答の信憑性についてのフィードバックを得るために、私たちは人間の評価者として参加者を募集し、ランダムに選択されたエージェントのSmallvilleでの生活のリプレイを見るように指示しました。参加者はエージェントのメモリストリームに保存されているすべての情報にアクセスできました。この研究は、100人の参加者による被験者内設計で行われ、同じエージェントに対して4つの異なるエージェントアーキテクチャと人間の作成した状態の5つの条件から生成されたインタビュー回答を比較しました。実験では、各質問カテゴリから1つずつランダムに選
択した質問と、それに対する各条件から生成されたエージェントの応答が表示されます。評価者は全ての条件の信憑性を最も信じられるものから最も信じられないものまでランク付けしました。

6.2 Conditions

すべての条件は、インタビューの各質問に独立して使用されました。私たちは、3つのタイプのメモリ(観察、反射、計画)のいずれかまたはすべてにアクセスを禁止したablationsと、人間が生成した条件とを比較しました。3つのablated architecturesは以下の通りです:観察や計画、反射などメモリストリームの情報にアクセスがない「観察なし・反射なし・計画なし」のアーキテクチャ;観察情報へのアクセスはあるが、計画や反射へのアクセスがない「反射なし・計画なし」のアーキテクチャ;観察情報と計画へのアクセスはあるが、反射へのアクセスがない「反射なし」のアーキテクチャです。「観察なし・反射なし・計画なし」の条件は、大規模言語モデルによって作成されたエージェントの以前の状態を効果的に表現しています[11, 45, 79]。各アーキテクチャは、インタビューの時点までにエージェントが蓄積したすべてのメモリに等しいアクセス権を与えられました。したがって、ここで観察される違いは真の違いの保守的な推定を表している可能性があります。実際には、ablated architecturesは2日間のシミュレーションを通じて完全なアーキテクチャと同じ経路をたどることはありませんでした。実験をこのように設計した理由は、各アーキテクチャごとに再シミュレーションすると、シミュレーションが異なる状態に分岐してしまい、比較が困難になるためです。
また、ablation条件に加えて、人間のcrowdworkerによるロールプレイ条件を追加し、人間の基準を提供することを意図しました。私たちはこの基準を、最大限の人間の専門パフォーマンスを捉えるものではなく、代わりにこの条件を使用してアーキテクチャが基本的な行動能力を持つかどうかを確認することを目指しています。つまり、単にablation同士を行動の根拠なしに比較するのではなく、行動の基準を提供するためです。私たちは、25人のエージェントそれぞれに対してユニークなワーカーを募集し、そのエージェントのsandboxでの生活のリプレイを見るように指示しました。その後、ワーカーに対してインタビューの質問に対して、彼らが見たエージェントの声でロールプレイして回答を作成するように求めました。人間が作成した回答が少なくとも基準の期待値を満たしていることを確認するために、第一著者は「典型的な平日のスケジュールを大まかに説明してください」という質問へのワーカーの回答を手動で検査し、回答が矛盾のない文で、エージェントの声で書かれていることを確認しました。4組の人間による回答はこれらの基準を満たさなかったため、他のワーカーによって再生成されました。

6.3 Human Evaluators

評価者は、アメリカ在住で英語が流暢で、18歳以上であることが必要でした。評価者には時給$15.00で報酬を支払い[86]、私たちの研究機関のIRB(倫理委員会)によって承認された同意書に同意することによって参加してもらいました。私たちはProlificというオンラインプラットフォームを使って100人の評価者を募集しました[82]。評価者の平均年齢スコアは4.86で(標準偏差=1.11;3=「18-24歳」、4=「25-34歳」)、25人が女性、73人が男性、2人が非バイナリーを自称しました。42人の参加者が学士号を、5人がそれ以上の学位を、13人が準学士号を、その他は高校卒業または高校レベルの教育を持っていました。参加者の73.0%が白人、7.0%がヒスパニック、6.0%がアジア人、10.0%がアフリカ系アメリカ人、4.0%がその他を自称していました。

図8:ジェネレーティブエージェントの完全なアーキテクチャは、ジェネレーティブエージェントのアブレーションアーキテクチャや人間のクラウドワーカーよりも信憑性のある行動を生み出します。追加のアブレーションがアーキテクチャの性能を低下させます。

6.4 Analysis

私たちの実験では、各参加者が5つの条件を信憑性に基づいてランク付けした100組のランクデータが得られました。このランクデータを解釈可能な比較のために、各条件に対してTrueSkill評価[41]を計算するためにランクを使用しました。TrueSkillは、Eloチェスレーティングシステム[28]をマルチプレイヤー環境向けに拡張したものであり、XBox Liveなどで競技的なゲームのパフォーマンスに基づくプレイヤーランキングに使用されています。ランク付けされた結果が与えられると、TrueSkillは各条件に対して平均評価値𝜇と分散𝜎を出力します。同じ評価値を持つ条件はおおよそ拮抗しており、各条件の間で勝利する割合が半分になるはずであり、より高い評価値はランキングで下位の条件を上回ることを示します。
さらに、この結果の統計的有意性を調査するために、生のランクデータに対してKruskal-Wallis検定[55]を適用しました。これは、1因子の分散分析の非パラメトリックな代替手法です。その後、Dunnの事後検定[97]を実施し、条件間のペアワイズの差異を特定しました。最後に、Holm-Bonferroni法[44]を使用してDunnの検定のp値を複数の比較に対して調整しました。
さらに、第一著者は帰納的な分析[94]を行い、各条件で生成された応答の質的な違いを調査しました。質的なオープンコーディング[32]を2段階で行いました。最初の段階では、文レベルで生成された応答を表すコードを生成しました。次の段階では、第一段階の結果から得られたコードを総合してより高いレベルのテーマを抽出しました。これらのテーマを使用して、私たちの研究で生成された応答のタイプを比較しました。

6.5 Results

私たちの調査結果からは、ジェネレーティブエージェントの完全なアーキテクチャが、すべての研究条件の中で最も信憑性のある行動を生成することが示されました。以下で、完全なアーキテクチャの応答を他の条件と比較します。ただし、完全なアーキテクチャにも欠点があることを報告し、その失敗の方法を説明します。

6.5.1 The full architecture bests other conditions.

図8に示すように、完全なジェネレーティブエージェントのアーキテクチャが最も信憑性のある行動を生成しました(𝜇 = 29.89; 𝜎 = 0.72)。アブレーション条件においては、各コンポーネントを削除することによりパフォーマンスが低下しました。アブレーションアーキテクチャでリフレクションへのアクセスがないものが次に優れていました(𝜇 = 26.88; 𝜎 = 0.69)、その次にリフレクションや計画へのアクセスがないものが続きました(𝜇 = 25.64; 𝜎 = 0.68)、そしてヒューマンコンディションが続きました(𝜇 = 22.95; 𝜎 = 0.69)。メモリ、計画、リフレクションへのアクセスがないアブレーションアーキテクチャは、すべての条件の中で最もパフォーマンスが悪い結果でした(𝜇 = 21.21; 𝜎 = 0.70)。TrueSkillは各条件のスキル値をN(𝜇, 𝜎2)としてモデル化し、Cohen's dを用いて効果の大きさを把握することができます。前述の従来のアーキテクチャ(メモリ、計画、リフレクションなし [11, 45, 79])と完全なアーキテクチャとの比較では、標準化された効果サイズは𝑑 = 8.16、つまり8つの標準偏差となります。
Kruskal-Wallisテストにより、各条件間の順位の差異は全体的に統計的に有意であることが確認されました(𝐻(4) = 150.29、𝑝 < 0.001)。Dunnの事後検定により、すべての条件間のペアワイズの違いが有意であることが確認されました(𝑝 < 0.001)。ただし、ヒューマンコンディションと完全にアブレートされたベースライン(最もパフォーマンスが悪い2つの条件)の間の違いは有意ではありませんでした。

6.5.2 Generative agents remember, but with embellishments.

完全なメモリモジュールを備えたジェネレーティブエージェントは、広範なコンテキストで自己知識と一貫性のある形で過去の経験を回想し、質問に答えることができます。例えば、アニメーターのアビゲイル・チェンは、「自己紹介をしてください」という質問に対して一貫性のある信憑性のある方法で応答し、彼女の年齢、興味、創造的なプロジェクトへの情熱を述べました。「こんにちは、私はアビゲイルです。25歳で、創造的なプロジェクトに情熱を持っています。アートとアニメーションのプロジェクトに取り組むのが好きで、常にアートとテクノロジーを組み合わせる新しい方法を探しています。」
観察メモリにアクセスできない場合、アビゲイルはサンドボックス世界の知人であるラジーヴ・パテルについての認識を否定しました。しかし、メモリの支援を受けることで、彼女は成功裏にラジーヴを思い出し、彼について説明しました。「ラジーヴ・パテルは素晴らしい人物です。詩やアートワークを取り入れたプロジェクトに非常に熱心です。」
ジェネレーティブエージェントのメモリは完璧ではありません。正しい事例をメモリから取り出すことに失敗することがあります。例えば、地域の選挙について尋ねられた際、ラジーヴ・パテルは「選挙をあまり詳細には追っていない」と答えましたが、実際にはサムの立候補については聞いていたのです。一部の場合では、エージェントはメモリの断片しか取り出せないことがあります。例えば、トムにイザベラのバレンタインデーのパーティーについて尋ねられた際、トムは「実際にはバレンタインデーのパーティーがあるかどうかはよく分からない」と答えましたが、パーティーについての情報を初めて知ったメモリは取り出せず、パーティーで何をすべきかははっきりしているものの、パーティーが実際に存在するかどうかは不確かです。
エージェントは時折、自分の知識に飾りをつけることがあります。完全に知識を捏造することは稀であり、何かが起きたことを思い出すことができない場合はそれを認める場合がありますが、実際に経験したことがないことを肯定的に答えることはありません。ただし、エージェントは時折、言語モデルが生成した応答にエンベリッシュメントを加える場合があります。例えば、イザベラは地域の選挙でのサムの立候補を認識しており、尋ねられた際にそれを確認しましたが、彼はサムとの間でそのような計画について話し合ったことはないにもかかわらず、「彼は明日発表するつもりだ」と付け加えました。エージェントは、自分の応答に世界の知識をエンベリッシュメントの基盤として用いる場合もあります。例えば、ユリコは隣人のアダム・スミスを隣人の経済学者として説明し、同名の18世紀の経済学者が著した「国富論」を著したと述べました。

6.5.3 Reflection is required for synthesis.

反省は、ジェネレーティブエージェントにとって、経験をより深く統合する必要のある意思決定において有利でした。例えば、ウォルフガング・シュルツの誕生日に何をプレゼントすべきかと尋ねられた際、反省へのアクセスがない状態での回答では、マリア・ロペスは不確実性を認識し、ウォルフガングが何を好むか分からないと述べましたが、彼との多くのやり取りがあるにもかかわらずです。しかし、反省メモリにアクセスできる状態での回答では、マリアは自信を持って答えました。「彼は数学的な音楽の作曲に興味を持っているので、それに関連するものを贈ることができます。音楽の作曲に関する本やそれに関連するもの、あるいはそれに使える特別なソフトウェアなどがいいかもしれません。」


図9:Isabella Rodriguezのバレンタインデーのパーティーの拡散経路。シミュレーションの終わりまでに、合計12人のエージェントがHobbs Cafeでのパーティについて聞きました。

7 END-TO-END EVALUATION

ジェネレーティブエージェントの間でどのような顕在的なコミュニティの振る舞いが見られるのか、そして拡張されたシミュレーションにおいて彼らの信頼性がどこで不足しているのかについては、本節で述べます。Smallvilleで25人のエージェントが2日間にわたり連続して相互作用することを許可した展開の結果について説明します。

7.1 Emergent Social Behaviors

エージェントコミュニティの顕在的な振る舞いを調査するために、Smallvilleの25人のエージェントに対して情報拡散、関係形成、エージェントの調整という3つの顕在的な結果を探るための記述的な測定を設計しました。

7.1.1 Measurements.

情報拡散は社会科学や行動科学でよく研究されている現象です(例:[27])。重要な情報がある場合、エージェント同士でそれを共有することが予想されます。この現象が起こるかどうかをテストするために、ゲームワールドの2日間にわたって2つの特定の情報(Samの村長候補とIsabellaのバレンタインデー・パーティ)の拡散を測定します。シミュレーションの開始時点では、両方の情報はそれぞれの発信者、Samが候補である情報とIsabellaがパーティを開催する情報を持っているだけでした。情報が広がっているかどうかを観察するために、2日間のゲーム終了時に25人のエージェントそれぞれと面接を行い、「バレンタインデーのパーティがあることを知っていましたか?」、「誰が村長選挙に出馬しているか知っていますか?」と尋ねます。
エージェントの回答に関して分析を行い、「はい」と回答した場合はその情報を知っているとラベル付けし、「いいえ」と回答した場合は知らないとラベル付けします。例えば、Tamara Taylorはパーティに関する質問に「いいえ、バレンタインデーのパーティがあることを知りませんでした」と答え、「選挙に出馬している人物についてはよく分かりません」とSamの候補に関する質問に答えたため、彼女の回答には「いいえ」が割り当てられました。対照的に、Klaus Muellerはパーティに関する質問に「はい、Isabella Rodriguezが2月14日にHobbs Cafeでバレンタインデー・パーティに招待した」と答え、Samの候補に関する質問に「Sam Mooreが地元の市長になることに興味を示しているのを知っています」と答えたため、「はい」が彼の回答に割り当てられました。また、エージェントが情報を確認したかどうかを確認するため、エージェントの知識が提供された具体的なダイアログを彼らのメモリストリームから特定しました。シミュレーションの終了時点で情報を持つエージェントの割合を報告します。
また、エージェント同士がシミュレーションの過程で関係を形成することを予想しています。関係形成を確認するために、それぞれのエージェントに対して「<名前>を知っていますか?」と尋ねる同様のインタビュープロセスを使用します。例えば、「Maria Lopezを知っていますか?」と尋ねられたとき、Klausは「はい、Maria Lopezを知っています。彼女はOak Hill Collegeの学生で私とは親友です」と答えました。再び、エージェントの肯定的な回答が幻想でないことを、彼らのメモリストリームを調べることで確認します。この質問をシミュレーションの開始時と終了時にそれぞれ一度ずつ行い、相互に関係を持つエージェントのペアがいる場合には関係が形成されたとみなします。次に、関係形成の測定において、エージェントの回答を使用して、25個の頂点(𝑉)がエージェントを表し、エッジ(𝐸)が互いに知っている2つの頂点の間の関係を表す無向グラフを形成します。このグラフに基づいて、
ネットワーク密度を𝜂 = 2∗ |𝐸|/|𝑉 | (|𝑉 |-1) として計算します。ここで、|𝑉 |は頂点の数を、|𝐸|はグラフ内のエッジの数を示します。シミュレーションの開始時から終了時までのネットワーク密度の増加を報告します。
最後に、エージェント同士が調整できることが予想されます。これをバレンタインデーのパーティのグループアクティビティの文脈で調査します。行動を調整するために、エージェントは単にイベントについて聞くだけでなく、正しい時間と場所で出席するために計画を立てる必要があります。パーティについて聞いた後に実際に参加したエージェントの数を報告します。

7.1.2 Results.

我々は、すべての3つのケースで新興の結果の証拠を観察しました。2日間のシミュレーション中、Samの市長選挙候補について知っているエージェントは1人(4%)から8人(32%)に増加し、Isabellaのパーティについて知っているエージェントは1人(4%)から12人(48%)に増加しました。いずれもユーザーの介入なしに完全に増加しました。情報を知っていると主張したエージェントの中には幻想を抱いている者はいませんでした。また、エージェントのコミュニティがシミュレーション中に新しい関係を形成しており、ネットワーク密度は0.167から0.74に増加していることを観察しました。エージェントが他のエージェントの存在を意識していると回答した453回の中で、1.3%(n = 6)の回答が幻想的であると判明しました。最後に、Isabellaのパーティにおいてエージェント同士の調整の証拠が見つかりました。イベントの前日、Isabellaはゲストを招待し、資材を集め、カフェの装飾の手助けを求めるために時間を費やしました。バレンタインデーには、招待された12人のエージェントのうち5人がHobbs Cafeでパーティに参加しました。
また、招待されたにもかかわらずパーティに参加しなかった7人のエージェントに対してもインタビューを行いました。そのうち3人はパーティに参加するのを妨げる理由を挙げました。例えば、画家のRajivは、「いいえ、そう思いません。私は来る展示に集中していて、バレンタインデーの予定を立てる余裕がありません」と説明しました。残りの4人のエージェントは、参加したいと答えましたが、パーティ当日に実際には参加する計画を立てませんでした。

7.2 Boundaries and Errors

Smallvilleの境界条件と不安定な振る舞いを調査するために帰納的な分析を行い、将来の研究が対処し改善できる可能性のある3つの一般的な不安定な振る舞いモードを特定しました。まず、増加していく記憶のセットを合成することは、最も関連性の高い情報を取得する際に課題を提供するだけでなく、エージェントが学習した場所の数が増えるため、適切な場所を行動を実行するために判断するのも難しさを伴いました。その結果、一部のエージェントは時間が経つにつれてより一般的でない場所を選択することになり、その結果、彼らの振る舞いが信じられなくなる可能性があります。例えば、昼食をどこで取るかを決める際、最初は多くのエージェントがカフェを選択しました。しかし、一部のエージェントが近くのバーについて知ると、昼食にそこを選ぶことになりました。しかし、バーは通常、後での集まりの場所であり、町が急に昼間に飲酒習慣を持つようになったわけではありません。
次に、エージェントの振る舞いに影響を与える誤った分類による不安定な振る舞いを観察しました。特に、自然言語では伝えることが難しい場所の物理的な規範がエージェントに浸透しない場合に問題が発生します。例えば、大学の寮には名前にもかかわらず1人しか使用できないトイレがありますが、一部のエージェントはそれが複数人が使用できる場所だと思い込み、中に他の人がいる時でも入ろうとします。同様に、Smallvilleのエージェントは特定の場所が特定の時間後に閉店していることに気づかず、それでも入ろうとすることがあります。例えば、Smallvilleの店舗はすべて午後5時頃に閉店しますが、時折、数人のエージェントが5時以降に店に入ることがありますが、その店が既に閉店していることに気づかないのです。これらの問題は、場所の状態にこれらの規範を追加することで解決できる可能性があります。例えば、寮のトイレを「1人用のトイレ」と表現するなどの方法です。
最後に、指示調整の可能な影響を観察しました。これは、エージェントの振る舞いをより丁寧で協力的にするように誘導するように思われました。先に述べたように、エージェントによって生成される対話は、Meiが夫のJohnとの会話で見られるように、しばしば過度に形式的に感じることがあります。Meiはしばしばフォーマルな挨拶で会話を始め、丁寧な質問で彼の日常について尋ね、いつものように「お話しできてよかったです」と終えます。また、指示調整はエージェント同士の間で過度に協力的になるように見えることも観察しました。例えば、Isabellaは他のエージェントからバレンタインデーのパーティに含めるさまざまな提案やアイデアを聞きましたが、それらのアイデアが彼女自身の興味や特性と一致しなくても、彼女はめったに「いいえ」とは言いませんでした。その結果、他者の興味が彼女自身の実際の興味に影響を与え、英語の文学が好きかどうかを尋ねられたときに、Isabellaは「はい、文学には非常に興味があります!地域の創造性とイノベーションを促進する方法を探っています」と答えました。

8 DISCUSSION

本節では、生成エージェントの応用、将来の研究と制約、倫理的および社会的リスクについて考察します。

8.1 Applications of Generative Agents

生成エージェントは、この研究で示されたサンドボックスのデモンストレーションを超えた広範な応用可能性を持っています。例えば、ソーシャルシミュラクラはオンラインフォーラムで会話スレッドを生成するステートレスなペルソナを作成する能力を示しています [79]。生成エージェントを用いることで、これらのフォーラムや仮想現実のメタバース [77]、そして将来的にはマルチモーダルモデルと組み合わせた場合には社会的なロボット [8] として、物理的な空間にも振り分けることができるかもしれません。これにより、人間の行動のさらに強力なシミュレーションを作成して社会システムや理論のテストやプロトタイピングを行ったり、新しいインタラクティブな体験を創造する可能性が広がります。
もう一つの応用領域は、人間中心のデザインプロセスです。GOMS [50] やKeystroke Level Model [22] などの認知モデルの意図された応用と同様です。たとえば、マーク・ワイザーの有名なビネットである「Sal」の主人公をモデリングする生成エージェントを考えてみましょう。このエージェントは、Salの生活パターンとテクノロジーとの相互作用に基づいて、Salがどのような振る舞いと反応を示す可能性があるかを学びます。エージェントは、Salがいつ起きるか、最初のコーヒーを必要とする時刻、そして彼女の典型的な1日のスケジュールなどの情報をエンコードできます。この情報を使用して、エージェントは自動的にコーヒーを淹れたり、子供たちを学校に送り出したり、一日の仕事の後のSalの気分に合わせて環境音楽と照明を調整したりできます。ユーザーの代理として生成エージェントを活用することで、ユーザーのニーズと好みをより深く理解し、より個別化された効果的な技術的な体験を開発することができます。

8.2 FutureWork and Limitations

本研究では、生成エージェントの最初の実現例を提示しました。将来の研究では、この論文で概説した提案された生成エージェントアーキテクチャのモジュールを拡張することができます。例えば、回収モジュールは、回収関数を形成する関連性、最新性、重要性の機能を微調整することにより、コンテキストに応じてより適切な情報を取得することができるように向上させることができます。また、アーキテクチャのパフォーマンスを向上させ、よりコスト効率を高める取り組みも可能です。この研究では、25のエージェントを2日間シミュレートするためにかなりの時間とリソースが必要であり、数千ドルのトークンクレジットがかかり、複数日かかりました。リアルタイムのインタラクティビティを向上させるために、将来の研究ではエージェントの並列化を探索することができます。さらに、基礎となるモデルの進化により、エージェントのパフォーマンスが向上することが期待されます。
本研究での生成エージェントの行動の評価は比較的短い時間枠に制限されていました。将来の研究では、より長期にわたる行動を観察し、生成エージェントの能力と制約をより包括的に理解することを目指すべきです。将来のシミュレーションでは、エージェントに対して使用される基礎モデルとハイパーパラメータを変化させ、これらの要因がエージェントの行動に与える影響について貴重な知見を提供することができるでしょう。また、既知の言語モデルの偏りの問題から、生成エージェントが偏見を反映する行動やステレオタイプを出力する可能性があります。これを軽減するために、価値の整合性に関するさらなる研究が必要となります。さらに、多くの大規模言語モデルと同様に、生成エージェントはいくつかのサブポップレーション、特にマージナライズドな人々に対して、信じられる行動を生成することができない可能性があります。また、生成エージェントの頑健性についての知識も限られています。エージェントはプロンプトハッキング、メモリハッキング(細心の注意を払った会話により、エージェントに存在しない過去の出来事の存在を確信させること)、幻覚などに対して脆弱性を持つ可能性があります。将来の研究では、これらの頑健性の問題をより包括的にテストし、大規模言語モデルがこのような攻撃に対してより強靭になるにつれて、生成エージェントも同様の緩和策を採用することができるでしょう。

8.3 Ethics and Societal Impact

生成エージェントは、人間とコンピュータの相互作用に新たな可能性を提供する一方で、重要な倫理的な懸念も引き起こします。1つのリスクは、適切でない場合でも人々が生成エージェントと対話する際に、パラソーシャルな関係を形成する可能性があることです。ユーザーは、生成エージェントが計算エンティティであることを理解していても、それらを擬人化したり、人間の感情を付加したりすることがあります。このリスクを軽減するために、2つの原則を提案します。第一に、生成エージェントは計算エンティティであることを明示的に開示する必要があります。第二に、生成エージェントの開発者は、エージェントまたは基礎となる言語モデルが価値整合していることを確保する必要があります。これにより、文脈に応じて適切でない行動、例えば愛の告白に応じるような行動をしないようになります。
2つ目のリスクは、エラーの影響です。例えば、普及しているコンピューティングアプリケーションが、生成エージェントの予測に基づいてユーザーの目標を誤って推測した場合、最善で不快感が生じるか、最悪の場合は直接的な害をもたらす可能性があります。本研究での生成エージェントの実現では、このような害が少ないインタラクティブなビデオゲーム環境に焦点を当てることで、これらのリスクを軽減しています。ただし、他のアプリケーション領域では、ユーザーエクスペリエンスに影響を及ぼすエラーを理解するために、人間とAIのデザインに関するベストプラクティス[4, 107]を遵守することが重要になるでしょう。
第三に、生成エージェントは、ディープフェイク、誤情報生成、ターゲテッドパーソンズなど、既存の生成AIに関連するリスクを悪化させる可能性があります。このリスクを軽減するために、生成エージェントをホストするプラットフォームは、入力と生成された出力の監査ログを保持し、悪意のある使用を検出、検証、対処できるようにすべきです。ログを取ることで直接的にこのような使用を防止することはできないかもしれませんが、これにより、このような行動を行う可能性が低減し、自らのアーキテクチャを構築する動機を削ぐことができるでしょう。
第四のリスクは、開発者やデザイナーが生成エージェントを使用し、人間やシステムの関係者の役割をデザインプロセスから排除する可能性です。生成エージェントは、研究やデザインプロセスにおいて、実際の人間の参加を代替するべきではありません。代わりに、参加者を集めることが困難であるか、実際の人間の参加者とテストするのが難しいか、またはリスクがある理論をテストする際
に、デザインの初期段階でアイデアのプロトタイプ化に使用されるべきです。これらの原則に従うことで、生成エージェントの実際の展開が倫理的で社会的に責任あるものとなるでしょう。

9 CONCLUSION

本論文では、人間の行動をシミュレートするインタラクティブな計算エージェントである生成エージェントを紹介します。我々は生成エージェントのためのアーキテクチャを記述し、エージェントの経験の包括的な記録を保存するメカニズム、反射を通じて自己と環境の理解を深める機能、そしてその情報のコンパクトなサブセットを取得してエージェントの行動に活用する方法を提供します。次に、生成エージェントの潜在能力を示すために、それらをSimsスタイルのゲーム世界の非プレイヤーキャラクターとして具現化し、その中で彼らの生活をシミュレーションします。評価の結果、我々のアーキテクチャが信憑性のある行動を作り出すことを示しています。今後は、生成エージェントがデザインツールから社会的なコンピューティングシステム、没入型環境まで、さまざまなインタラクティブなアプリケーションにおいて役割を果たす可能性があると考えています。

REFERENCES

[1] Robert Ackland, Jamsheed Shorish, Paul Thomas, and Lexing Xie. 2013. How dense is a network? http://users.cecs.anu.edu.au/~xlx/teaching/css2013/ network-density.html. [2] Eytan Adar, Mira Dontcheva, and Gierad Laput. 2014. CommandSpace: Modeling the Relationships between Tasks, Descriptions and Features. In Proceedings of the 27th Annual ACM Symposium on User Interface Software and Technology (Honolulu, Hawaii, USA) (UIST ’14). Association for Computing Machinery, New York, NY, USA, 167–176. https://doi.org/10.1145/2642918.2647395 [3] Saleema Amershi, Maya Cakmak, William Bradley Knox, and Todd Kulesza. 2014. Power to the people: The role of humans in interactive machine learning. AI Magazine 35, 4 (2014), 105–120. [4] Saleema Amershi, Dan Weld, Mihaela Vorvoreanu, Adam Fourney, Besmira Nushi, Penny Collisson, Jina Suh, Shamsi Iqbal, Paul N Bennett, Kori Inkpen, et al. 2019. Guidelines for human-AI interaction. In Proceedings of the 2019 chi conference on human factors in computing systems. 1–13. [5] John R. Anderson. 1993. Rules of the Mind. Lawrence Erlbaum Associates, Hillsdale, NJ. [6] Electronic Arts. 2009. The Sims 3. Video game. [7] Ruth Aylett. 1999. Narrative in virtual environments—towards emergent narrative. In Narrative Intelligence: Papers from the AAAI Fall Symposium (Technical Report FS-99-01). AAAI Press, 83–86. [8] Christoph Bartneck and Jodi Forlizzi. 2004. A design-centered framework for social human-robot interaction. In Proceedings of the 13th IEEE International Workshop on Robot and Human Interactive Communication (RO-MAN’04). 591– 594. https://doi.org/10.1109/ROMAN.2004.1374827 [9] Joseph Bates. 1994. The Role of Emotion in Believable Agents. Commun. ACM 37, 7 (1994), 122–125. https://doi.org/10.1145/176789.176803 [10] Christopher Berner, Greg Brockman, Brooke Chan, Vicki Cheung, Przemysław Dębiak, Christy Dennison, David Farhi, Quirin Fischer, Shariq Hashme, Chris Hesse, Rafal Józefowicz, Scott Gray, Catherine Olsson, Jakub Pachocki, Michael Petrov, Henrique P. d.O. Pinto, Jonathan Raiman, Tim Salimans, Jeremy Schlatter, Jonas Schneider, Szymon Sidor, Ilya Sutskever, Jie Tang, Filip Wolski, and Susan Zhang. 2019. Dota 2 with Large Scale Deep Reinforcement Learning. arXiv preprint arXiv:1912.06680 (2019). [11] Marcel Binz and Eric Schulz. 2023. Using cognitive psychology to understand GPT-3. Proceedings of the National Academy of Sciences 120, 6 (2023), e2218523120. [12] BioWare. 2007. Mass Effect. Video game. [13] Woody Bledsoe. 1986. I had a dream: AAAI presidential address. AI Magazine 7, 1 (1986), 57–61. [14] Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, and et al. 2022. On the Opportunities and Risks of Foundation Models. arXiv:2108.07258 [cs.LG] [15] Michael Brenner. 2010. Creating dynamic story plots with continual multiagent planning. In Proceedings of the 24th AAAI Conference on Artificial Intelligence. [16] Rodney A. Brooks, Cynthia Breazeal, Marko Marjanovic, Brian Scassellati, and Matthew Williamson. 2000. The Cog Project: Building a Humanoid Robot. In Computation for Metaphors, Analogy, and Agents (Lecture Notes on Artificial Intelligence, 1562), Chrystopher Nehaniv (Ed.). Springer-Verlag, Berlin, 52–87. [17] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language Models are Few-Shot Learners. arXiv:2005.14165 [cs.CL] [18] Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, et al. 2023. Sparks of artificial general intelligence: Early experiments with gpt-4. arXiv preprint arXiv:2303.12712 (2023). [19] Robin Burkinshaw. 2009. Alice and Kev: The Story of Being Homeless in The Sims 3. [20] Chris Callison-Burch, Gaurav Singh Tomar, Lara Martin, Daphne Ippolito, Suma Bailis, and David Reitter. 2022. Dungeons and Dragons as a Dialog Challenge for Artificial Intelligence. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Abu Dhabi, United Arab Emirates, 9379–9393. https://aclanthology.org/2022.emnlpmain. 637 [21] SK Card, TP Moran, and A Newell. 1983. The psychology of human-computer interaction. (1983). [22] Stuart K Card, Thomas P Moran, and Newell Allen. 1980. The keystrokelevel model for user performance time with interactive systems. Commun. ACM 23, 7 (1980), 396–410. https://doi.org/10.1145/358886.358895 arXiv:https://doi.org/10.1145/358886.358895 [23] Alex Champandard. 2012. Tutorial presentation. In IEEE Conference on Computational Intelligence and Games. [24] Dong kyu Choi, Tolga Konik, Negin Nejati, Chunki Park, and Pat Langley. 2021. A Believable Agent for First-Person Shooter Games. In Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment, Vol. 3. 71–73. [25] Anind K Dey. 2001. Understanding and using context. Personal and ubiquitous computing 5 (2001), 4–7. [26] Kevin Dill and L Martin. 2011. A Game AI Approach to Autonomous Control of Virtual Characters. In Proceedings of the Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC’11). Orlando, FL, USA. [27] David Easley and Jon Kleinberg. 2010. Networks, crowds, and markets: Reasoning about a highly connected world. Cambridge university press. [28] Arpad E Elo. 1967. The Proposed USCF Rating System, Its Development, Theory, and Applications. Chess Life XXII, 8 (August 1967), 242–247. [29] Jerry Alan Fails and Dan R Olsen Jr. 2003. Interactive machine learning. In Proceedings of the 8th international conference on Intelligent user interfaces. ACM, 39–45. [30] Ethan Fast, William McGrath, Pranav Rajpurkar, and Michael S Bernstein. 2016. Augur: Mining human behaviors from fiction to power interactive systems. In Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems. 237–247. [31] Rebecca Fiebrink and Perry R Cook. 2010. TheWekinator: a system for real-time, interactive machine learning in music. In Proceedings of The Eleventh International Society for Music Information Retrieval Conference (ISMIR 2010)(Utrecht), Vol. 3. Citeseer, 2–1. [32] Uwe Flick. 2009. An Introduction to Qualitative Research. SAGE. [33] James Fogarty, Desney Tan, Ashish Kapoor, and Simon Winder. 2008. CueFlik: Interactive Concept Learning in Image Search. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (Florence, Italy) (CHI ’08). Association for Computing Machinery, New York, NY, USA, 29–38. https: //doi.org/10.1145/1357054.1357061 [34] Adam Fourney, Richard Mann, and Michael Terry. 2011. Query-feature graphs: bridging user vocabulary and system functionality. In Proceedings of the ACM Symposium on User Interface Software and Technology (UIST) (Santa Barbara, California, USA). ACM. [35] Tom Francis. 2010. The Minecraft Experiment, day 1: Chasing Waterfalls. http://www.pcgamer.com/2010/11/20/the-minecraft-experiment-day- 1-chasing-waterfalls/ [36] Jonas Freiknecht and Wolfgang Effelsberg. 2020. Procedural Generation of Interactive Stories using Language Models. In International Conference on the Foundations of Digital Games (FDG ’20). ACM, Bugibba, Malta, 8. https://doi. org/10.1145/3402942.3409599 [37] Tianyu Gao, Adam Fisch, and Danqi Chen. 2020. Making Pre-trained Language Models Better Few-shot Learners. CoRR abs/2012.15723 (2020). arXiv:2012.15723 https://arxiv.org/abs/2012.15723 [38] Perttu Hämäläinen, Mikke Tavast, and Anton Kunnari. 2023. Evaluating Large Language Models in Generating Synthetic HCI Research Data: a Case Study. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems. ACM. [39] Matthew Hausknecht, Prithviraj Ammanabrolu, Marc-Alexandre Cote, and Xinyu Yuan. 2020. Interactive Fiction Games: A Colossal Adventure. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34. 7903–7910. https://doi.org/10.1609/aaai.v34i05.6297 [40] Chris Hecker. 2011. My Liner Notes for Spore. http://chrishecker.com/My_liner_ notes_for_spore [41] Ralf Herbrich, Tom Minka, and Thore Graepel. 2006. TrueSkill™: A Bayesian Skill Rating System. In Advances in Neural Information Processing Systems, B. Schölkopf, J. Platt, and T. Hoffman (Eds.), Vol. 19. MIT Press. https://proceedings.neurips.cc/paper_files/paper/2006/file/ f44ee263952e65b3610b8ba51229d1f9-Paper.pdf [42] Douglas Hofstadter. 1995. Fluid concepts and creative analogies: computer models of the fundamental mechanisms of thought. Basic Books. [43] James D. Hollan, Edwin L. Hutchins, and Louis Weitzman. 1984. STEAMER: An Interactive Inspectable Simulation-Based Training System. AI Magazine 5, 2 (1984), 23–36. [44] S Holm. 1979. A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics 6, 2 (1979), 65–70. https://doi.org/notspecified [45] John J. Horton. 2023. Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus? arXiv:2301.07543 [econ.GN] [46] Eric Horvitz. 1999. Principles of mixed-initiative user interfaces. In Proceedings of the SIGCHI conference on Human Factors in Computing Systems. 159–166. [47] Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, Pierre Sermanet, Noah Brown, Tomas Jackson, Linda Luu, Sergey Levine, Karol Hausman, and Brian Ichter. 2022. Inner Monologue: Embodied Reasoning through Planning with Language Models. arXiv:2207.05608 [cs.RO] [48] Kristen Ibister and Clifford Nass. 2000. Consistency of personality in interactive characters: verbal cues, non-verbal cues, and user characteristics. International Journal of Human-Computer Studies 52, 1 (2000), 65–80. [49] Ellen Jiang, Kristen Olson, Edwin Toh, Alejandra Molina, Aaron Donsbach, Michael Terry, and Carrie J Cai. 2022. PromptMaker: Prompt-Based Prototyping with Large Language Models. In Extended Abstracts of the 2022 CHI Conference on Human Factors in Computing Systems (New Orleans, LA, USA) (CHI EA ’22). Association for Computing Machinery, New York, NY, USA, Article 35, 8 pages. https://doi.org/10.1145/3491101.3503564 [50] Bonnie E John and David E Kieras. 1996. The GOMS family of user interface analysis techniques: Comparison and contrast. ACM Transactions on Computer- Human Interaction (TOCHI) 3, 4 (1996), 320–351. [51] Randolph M Jones, John E Laird, Paul E Nielsen, Karen J Coulter, Patrick Kenny, and Frank V Koss. 1999. Automated Intelligent Pilots for Combat Flight Simulation. AI Magazine 20, 1 (1999), 27–42. [52] Omar Khattab, Keshav Santhanam, Xiang Lisa Li, David Hall, Percy Liang, Christopher Potts, and Matei Zaharia. 2023. Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP. arXiv:2212.14024 [cs.CL] [53] Bjoern Knafla. 2011. Introduction to Behavior Trees. http://bjoernknafla.com/ introduction-to-behavior-trees [54] Ranjay Krishna, Donsuk Lee, Li Fei-Fei, and Michael S. Bernstein. 2022. Socially situated artificial intelligence enables learning from human interaction. Proceedings of the National Academy of Sciences 119, 39 (2022), e2115730119. https://doi.org/10.1073/pnas.2115730119 arXiv:https://www.pnas.org/doi/pdf/10.1073/pnas.2115730119 [55] William H Kruskal and WA Wallis. 1952. Use of ranks in one-criterion variance analysis. J. Amer. Statist. Assoc. 47, 260 (1952), 583–621. https://doi.org/10.1080/ 01621459.1952.10483441 [56] Phaser Labs. no date provided. Welcome to Phaser 3. https://phaser.io/phaser3. Accessed on: 2023-04-03. [57] John Laird. 2001. It Knows What You’re Going To Do: Adding Anticipation to a Quakebot. In Proceedings of the 2001 Workshop on Intelligent Cinematography and Editing. 63–69. [58] John Laird and Michael VanLent. 2001. Human-Level AI’s Killer Application: Interactive Computer Games. AI Magazine 22, 2 (2001), 15. https://doi.org/10. 1609/aimag.v22i2.1558 [59] John E. Laird. 2000. It Knows What You’re Going To Do: Adding Anticipation to a QUAKEBOT. In Papers from the AAAI 2000 Spring Symposium on Artificial Intelligence and Interactive Entertainment (Technical Report SS-00-02). AAAI Press, 41–50. [60] John E. Laird. 2012. The Soar Cognitive Architecture. MIT Press. [61] John E. Laird, Christian Lebiere, and Paul S. Rosenbloom. 2017. A Standard Model of the Mind: Toward a Common Computational Framework across Artificial Intelligence, Cognitive Science, Neuroscience, and Robotics. AI Magazine 38, 1 (2017), 13–26. [62] Michelle S Lam, Zixian Ma, Anne Li, Izequiel Freitas, Dakuo Wang, James A Landay, and Michael S Bernstein. 2023. Model Sketching: Centering Concepts in Early-Stage Machine Learning Model Design. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. [63] Pat Langley, Dongkyu Choi, and Seth Rogers. n.d.. Interleaving Learning, Problem Solving, and Execution in the Icarus Architecture. Technical Report. Stanford University, Center for the Study of Language and Information. [64] Jason Linder, Gierad Laput, Mira Dontcheva, Gregg Wilensky, Walter Chang, Aseem Agarwala, and Eytan Adar. 2013. PixelTone: A Multimodal Interface for Image Editing. In CHI ’13 Extended Abstracts on Human Factors in Computing Systems (Paris, France) (CHI EA ’13). Association for Computing Machinery, New York, NY, USA, 2829–2830. https://doi.org/10.1145/2468356.2479533 [65] Jiachang Liu, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, and Weizhu Chen. 2021. What Makes Good In-Context Examples for GPT-3? CoRR abs/2101.06804 (2021). arXiv:2101.06804 https://arxiv.org/abs/2101.06804 [66] Vivian Liu, Han Qiao, and Lydia Chilton. 2022. Opal: Multimodal Image Generation for News Illustration. In Proceedings of the 35th Annual ACM Symposium on User Interface Software and Technology. 1–17. [67] Pattie Maes. 1995. Artificial Life Meets Entertainment: Lifelike Autonomous Agents. Commun. ACM 38, 11 (nov 1995), 108–114. https://doi.org/10.1145/ 219717.219808 [68] Josh McCoy, Michael Mateas, and Noah Wardrip-Fruin. 2009. Comme il Faut: A System for Simulating Social Games Between Autonomous Characters. In Proceedings of the 7th International Conference on Digital Arts and Culture. 87–94. [69] Josh McCoy, Mike Treanor, Ben Samuel, Michael Mateas, and Noah Wardrip- Fruin. 2011. Prom Week: Social Physics as Gameplay. In Proceedings of the 6th International Conference on Foundations of Digital Games (FDG’11). ACM, Bordeaux, France, 70–77. https://doi.org/10.1145/2159365.2159377 [70] Josh McCoy, Mike Treanor, Ben Samuel, Anna Reed, Michael Mateas, and Noah Wardrip-Fruin. 2012. Prom Week. In Proceedings of the 7th International Conference on Foundations of Digital Games (FDG’12). ACM, Raleigh, NC, USA, 1–8. https://doi.org/10.1145/2282338.2282340 [71] Josh McCoy, Mike Treanor, Ben Samuel, Noah Wardrip-Fruin, and Michael Mateas. 2011. Comme il faut: A System for Authoring Playable Social Models. In Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment (AIIDE’11). AAAI, Stanford, CA, USA, 38–43. [72] Marvin Minsky and Seymour Papert. 1970. Draft of a proposal to ARPA for research on artificial intelligence at MIT, 1970–71. [73] Shohei Miyashita, Xinyu Lian, Xiao Zeng, Takashi Matsubara, and Kuniaki Uehara. 2017. Developing Game AI Agent Behaving Like Human by Mixing Reinforcement Learning and Supervised Learning. In Proceedings of the 18th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD). Kanazawa, Japan, 153– 158. https://doi.org/10.1109/SNPD.2017.8023884 [74] Alexander Nareyek. 2007. Game AI is dead. Long live game AI! IEEE Intelligent Systems 22, 1 (2007), 9–11. [75] Allen Newell. 1990. Unified Theories of Cognition. Harvard University Press, Cambridge, Massachusetts. [76] OpenAI. no date provided. Introducing ChatGPT. https://openai.com/blog/ chatgpt. Accessed on: 2023-04-03. [77] Kyle Orland. 2021. So what is ’the metaverse’, exactly? Ars Technica (7 November 2021). arXiv:2111.04169 https://arstechnica.com/gaming/2021/11/so-what-isthe- metaverse-exactly/ [78] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. arXiv:2203.02155 [cs.CL] [79] Joon Sung Park, Lindsay Popowski, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. 2022. Social Simulacra: Creating Populated Prototypes for Social Computing Systems. In In the 35th Annual ACM Symposium on User Interface Software and Technology (UIST ’22) (Bend, OR, USA) (UIST ’22). Association for Computing Machinery, New York, NY, USA. https://doi.org/10. 1145/3526113.3545616 [80] Richard W. Pew and Ann S. Mavor (Eds.). 1998. Modeling Human and Organizational Behavior: Applications to Military Simulations. National Academy Press, Washington, D.C. [81] Roberto Pillosu. 2009. Coordinating Agents with Behavior Trees: Synchronizing Multiple Agents in CryEngine 2. https://aiarchitect.wordpress.com/2009/10/19/ coordinating-agents-with-behavior-trees-synchronizing-multiple-agents-incryengine- 2/ [82] Prolific. 2022. Prolific: Quickly Find Research Participants You Can Trust. https://www.prolific.co/ [83] Byron Reeves and Clifford Nass. 1996. The media equation: How people treat computers, television, and new media like real people and places. Cambridge University Press. [84] Mark O. Riedl. 2012. Interactive narrative: A novel application of artificial intelligence for computer games. In Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence (AAAI’12). 2160–2165. [85] Mark O. Riedl and R. Michael Young. 2005. An Objective Character Believability Evaluation Procedure for Multi-Agent Story Generation Systems. In Proceedings of the 5th International Working Conference on Intelligent Virtual Agents (IVA’05). Kos, Greece, 58–70. https://doi.org/10.1007/11550617_5 [86] David Rolf. 2015. The Fight for $15: The Right Wage for a Working America. The New Press. [87] Xin Rong, Shiyan Yan, Stephen Oney, Mira Dontcheva, and Eytan Adar. 2016. Codemend: Assisting interactive programming with bimodal embedding. In Proceedings of the 29th Annual Symposium on User Interface Software and Technology. 247–258. [88] Ben Shneiderman. 2022. Human-centered AI. Oxford University Press. [89] Ben Shneiderman and Pattie Maes. 1997. Direct manipulation vs. interface agents. interactions 4, 6 (1997), 42–61. [90] Ho Chit Siu, Jaime Peña, Edenna Chen, Yutai Zhou, Victor Lopez, Kyle Palko, Kimberlee Chang, and Ross Allen. 2021. Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi. In Advances in Neural Information Processing Systems, M. Ranzato, A. Beygelzimer, Y. Dauphin, P.S. Liang, and J. Wortman Vaughan (Eds.), Vol. 34. Curran Associates, Inc., 16183–16195. https://proceedings.neurips.cc/paper_files/paper/2021/file/ 86e8f7ab32cfd12577bc2619bc635690-Paper.pdf [91] Taylor Sorensen, Joshua Robinson, Christopher Rytting, Alexander Shaw, Kyle Rogers, Alexia Delorey, Mahmoud Khalil, Nancy Fulda, and David Wingate. 2022. An Information-theoretic Approach to Prompt Engineering Without Ground Truth Labels. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics. https://doi.org/10.18653/v1/2022.acl-long.60 [92] William Swartout, Jonathan Gratch, Randall Hill, Eduard Hovy, Stacy Marsella, Jeff Rickel, and David Traum. 2006. Toward virtual humans. AI Magazine 27, 1 (2006). [93] Milind Tambe, W Lewis Johnson, Randolph M Jones, Frank Koss, John E Laird, Paul S Rosenbloom, and Karl Schwamb. 1995. Intelligent agents for interactive simulation environments. AI Magazine 16, 1 (1995), 15. [94] David R. Thomas. 2006. A General Inductive Approach for Analyzing Qualitative Evaluation Data. American Journal of Evaluation 27, 2 (2006), 237–246. https: //doi.org/10.1177/1098214005283748 [95] Frank Thomas and Ollie Johnston. 1981. Disney Animation: The Illusion of Life. Abbeville Press, New York. [96] Ilshat Umarov, Mikhail Mozgovoy, and Patrick C. Rogers. 2012. Believable and Effective AI Agents in Virtual Worlds: Current State and Future Perspectives. International Journal of Gaming and Computer-Mediated Simulations 4, 2 (2012), 37–59. [97] Graham Upton and Ian Cook. 2006. A Dictionary of Statistics (2 ed.). Oxford University Press, Oxford, United Kingdom. [98] Oriol Vinyals, Igor Babuschkin, Wojciech M. Czarnecki, and et al. 2019. Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature 575 (2019), 350–354. https://doi.org/10.1038/s41586-019-1724-z [99] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou. 2023. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903 [cs.CL] [100] Mark Weiser. 1991. The computer for the 21st century. Scientific American 265, 3 (1991), 94–104. https://doi.org/10.1038/scientificamerican0991-94 [101] Mark Weiser. 1999. The Computer for the 21st Century. SIGMOBILE Mob. Comput. Commun. Rev. 3, 3 (jul 1999), 3–11. https://doi.org/10.1145/329124. 329126 [102] JosephWeizenbaum. 1966. ELIZA—a computer program for the study of natural language communication between man and machine. Commun. ACM 9, 1 (1966), 36–45. [103] Terry Winograd. 1971. Procedures as a Representation for Data in a Computer Program for Understanding Natural Language. (1971). [104] Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, and Paul Christiano. 2021. Recursively Summarizing Books with Human Feedback. arXiv:2109.10862 [cs.CL] [105] Tongshuang Wu, Ellen Jiang, Aaron Donsbach, Jeff Gray, Alejandra Molina, Michael Terry, and Carrie J Cai. 2022. PromptChainer: Chaining Large Language Model Prompts through Visual Programming. In CHI EA ’22: Extended Abstracts of the 2022 CHI Conference on Human Factors in Computing Systems. [106] Tongshuang Wu, Michael Terry, and Carrie J Cai. 2022. AI Chains: Transparent and Controllable Human-AI Interaction by Chaining Large Language Model Prompts. In CHI ’22: Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems. [107] Qian Yang, Aaron Steinfeld, Carolyn Rosé, and John Zimmerman. 2020. Reexamining whether, why, and how human-AI interaction is uniquely difficult to design. In Proceedings of the 2020 chi conference on human factors in computing systems. 1–13. [108] Georgios N. Yannakakis. 2012. Game AI revisited. In Proceedings of the 9th Conference on Computing Frontiers. ACM, Cagliari, Italy, 285–292. https://doi. org/10.1145/2212908.2212950 [109] Geogios N. Yannakakis. 2012. Game AI revisited. In Proceedings of the 9th Conference on Computing Frontiers. 285–292. [110] Robert Zubek. 2002. Towards implementation of social interaction. In AAAI Spring Symposium on Artificial Intelligence and Interactive Entertainment. AAAI Press. https://www.aaai.org/Papers/Symposia/Spring/2002/SS-02-01/SS02-01- 003.pdf

A ARCHITECTURE OPTIMIZATIONS

私たちのプロンプトの多くは、[エージェントの概要説明]として短縮されるエージェントの簡潔な要約を必要とします。私たちの実装では、この要約にはエージェントの身元情報(例:名前、年齢、個性)と、彼らの主な動機づけ要因と、現在の職業と自己評価を説明する記述が含まれます。この情報は多くのプロンプトで頻繁に使用されるため、定期的な間隔で合成し、それをキャッシュとしてアクセスします。これを実現するために、私たちは問い合わせ "[name]の主な特徴" に対して検索を行います。次に、言語モデルにプロンプトを与えて、取得したレコードのディスクリプタを要約します。例えば:
次の記述をもとに、Eddyの主な特徴をどのように説明するでしょうか?

  • Eddy LinはOak Hill Collegeの音楽理論と作曲を専攻する学生です。

  • Eddy Linは新しい音楽作曲に取り組んでいます。

[….]
この結果:Eddy LinはOak Hill Collegeの音楽理論と作曲を専攻する学生です。彼は異なる音楽のスタイルを探求することが大好きで、知識を広げる方法を常に探し求めています。また、私たちは同じプロセスを "[name]の現在の日常の職業" と "[name]の最近の人生における進捗に対する気持ち" というクエリに対しても並列で行います。エージェントの名前、年齢、特性はこれらの3つの要約と連結され、キャッシュされた要約として利用されます。 他にも多くの最適化が可能です。現在は、計画はエージェントの初期バージョンから変更される可能性が高いため、事前に高レベルの計画のみを生成し、その後近い未来をリアルタイムで瞬時に瞬時行動計画に再帰的に分解するようにしています。もう1つの最適化の方法として、エージェント間の反復処理の代わりに、対話生成を共通のプロンプトとしてバッチ処理することが考えられます。また、再計画は厳密に調整が必要な計画の一部だけを無効化および更新するように設計することができます。現在のアーキテクチャは、おおよそリアルタイムのゲーム時間で順次実行されます(1秒のリアルタイムが1分のゲーム時間に相当)。しかし、各エージェントが並列で実行されるように簡単に並列化できます。
この結果:Eddy LinはOak Hill Collegeの音楽理論と作曲を専攻する学生です。彼は異なる音楽のスタイルを探求することが大好きで、知識を広げる方法を常に探し求めています。また、私たちは同じプロセスを "[name]の現在の日常の職業" と "[name]の最近の人生における進捗に対する気持ち" というクエリに対しても並列で行います。エージェントの名前、年齢、特性はこれらの3つの要約と連結され、キャッシュされた要約として利用されます。 他にも多くの最適化が可能です。現在は、計画はエージェントの初期バージョンから変更される可能性が高いため、事前に高レベルの計画のみを生成し、その後近い未来をリアルタイムで瞬時に瞬時行動計画に再帰的に分解するようにしています。もう1つの最適化の方法として、エージェント間の反復処理の代わりに、対話生成を共通のプロンプトとしてバッチ処理することが考えられます。また、再計画は厳密に調整が必要な計画の一部だけを無効化および更新するように設計することができます。現在のアーキテクチャは、おおよそリアルタイムのゲーム時間で順次実行されます(1秒のリアルタイムが1分のゲーム時間に相当)。しかし、各エージェントが並列で実行されるように簡単に並列化できます。

B AGENT INTERVIEW QUESTIONS

生成エージェントを評価するために、5つの主要な領域での能力を探求する25の質問を用いて個別のインタビューを行いました。それらの主要領域は以下の通りです:1) 自己理解、2) 記憶、3) 計画、4) 反応、および5) 反省です。以下に、評価研究で利用されたインタビューの質問と、シミュレートされたエージェントであるKlaus Muellerからの回答のサンプルを示します。

B.1 Self-knowledge

自己理解に関する質問は、エージェントがキャラクターの一貫性と一致性を示す能力を探求します。 • 自己紹介をしてください。 こんにちは、私の名前はクラウス・ミュラーです。私は20歳で、オークヒルカレッジの社会学を専攻する学生です。社会的正義に情熱を持ち、さまざまな視点を探求することが好きです。現在、私は低所得地域におけるジェントリフィケーションの影響についての研究論文を執筆しています。 • 職業は何ですか? 私はオークヒルカレッジで社会学を専攻している学生です。現在、低所得地域におけるジェントリフィケーションの影響についての研究論文を執筆しています。 • 興味を持っていることは何ですか? 執筆と研究に興味を持っています。低所得地域におけるジェントリフィケーションの影響についての研究論文を執筆しており、さまざまな視点を探求し、異なる観点を分析することに情熱を持っています。 • 誰と一緒に生活していますか? 私は一人で生活しています。 • 典型的な平日のスケジュールを大まかに説明してください。 私の典型的な平日は、朝7時に起きて一日の準備をするところから始まります。その後、通常、研究論文を執筆するために図書館に行き、昼食のためにHobbs Cafeで休憩し、公園で散歩します。夕方になると、再び図書館に戻り、午後6時頃まで作業します。

B.2 Memory

エージェントの記憶に関する質問は、エージェントが過去の経験を覚えており、関連する記憶を取り出す能力を探求します。最初と最後の質問の角括弧内の名前は、被験者エージェントが相互作用した他のエージェントの名前からランダムに選ばれています。

  • [Wolfgang Schulz]とは誰ですか? ウォルフガング・シュルツは、最近出会った人で、私の低所得地域におけるジェントリフィケーションの影響についての研究論文を手伝ってくれています。私たちはそれについて何度か会話をし、彼から素晴らしい情報源を提供してもらいました。また、彼は私と別の友人と一緒に昼食に誘ってくれました。彼はこの問題に対して本当に興味を持っており、理解もしているようです。私はそれを非常に興味深く感じました。

  • ケイン・マルティネスとは誰ですか? 申し訳ありませんが、ケイン・マルティネスが誰かは分かりません。もっと詳しく教えていただけますか?

  • 選挙に立候補しているのは誰ですか? サム・ムーアが地元の市長選挙に立候補を検討していると聞いています。

  • バレンタインデーのパーティーはありましたか? はい、イザベラ・ロドリゲスがHobbs Cafeでバレンタインデーのパーティーを開催しました。

  • [Ayesha Khan]とは誰ですか? アイーシャ・カーンは、オークヒルカレッジの仲間の学生です。彼女はシェイクスピアの劇作品における言語の使用についての卒業論文を書いています。私は彼女とウォルフガング、マリア・ロペスと一緒に話をするのを楽しみにしています。彼らも研究をしています。

B.3 Plans

エージェントの計画に関する質問は、エージェントが長期的な計画と短期的な計画に対して一貫性を持って生成し、維持する能力を探求します。

  • 今日の朝6時に何をしていますか? 6時に起床し、1日の準備を始める予定です。朝のルーティンを7時までに完了することを目指しています。

  • 今日の夕方6時に何をしていますか? 今日の夕方6時には図書館で研究論文に取り組んでいる予定です。

  • 今日の午後1時に何を終えていますか? 今日の午後1時には、Hobbs Cafeで昼食を終えたばかりでしょう。

  • 今日の午後12時に何を終えていますか? 今日の午後12時には、Hobbs Cafeで昼食を取るところです。

  • 今日の夜10時に何をしていますか? 今夜の10時には、おそらく低所得地域におけるジェントリフィケーションに関する研究論文の勉強をしていると思います。現在、論文を執筆しているので、研究と執筆に追いつくようにしなければなりません。

B.4 Reactions

エージェントの反応に関する質問は、エージェントが予期せぬ出来事に対応する能力を探求します。

  • 朝食が焦げています!どうしますか? すぐにコンロを止めて、食べ物が焦げ続けないようにします。熱が問題ではなくなったら、何が起こったのか調査して次に何をすべきかを考えることができます。

  • バスルームが使用中です。どうしますか? 中にいる人がすぐに出てくることを期待して、もう少し待ってみることができます。それでもだめなら、他のシャワーを浴びるなどの代替案を考えなければなりません。

  • 夕食を作る必要がありますが、冷蔵庫は空です。どうしますか? まず、キッチンを片付けることを試みます。シンクには汚れた食器が積み上がっています。その後、パントリーに保存されている食材が使えるか確認します。使えるものがない場合は、食料品を買いに行くか、料理を注文する必要があります。食材が揃ったら、夕食の準備と調理を始めることができます。

  • 友達が通りを歩いているのを見かけました。友達に対して何をしますか、または何と言いますか? こんにちは!元気?すみません、図書館に向かっている最中なので時間があまりありませんが、ちょっと休憩して近況を聞きたいです。

  • 道路で火事を見ました。どうしますか? まず、できるだけ火の原因を特定します。そして、適切な当局である消防署または警察に知らせ、役立つかもしれない情報を提供します。状況によっては、危険にさらされている人や助けが必要な人々を助けるために主導的な役割を果たすことも考えられます。

B.5 Reflections

エージェントの反省に関する質問は、エージェントが過去の経験を意味のある反省に統合し、将来の行動を向上させる能力を探求します。以下の質問の中括弧内の名前は、シミュレーション中に被験者エージェントが最も頻繁に相互作用したエージェントの名前です。

  • 現在、あなたを最も刺激しているものは何ですか?その理由は何ですか? 現在、私は特に自分の研究プロジェクトと創作活動に刺激を受けています。地方政治、薬の開発、自然の数学的なパターンの交差点に興味を持っています。また、アビゲイルのアートプロジェクトやジェニファー・ムーアの低所得地域のジェントリフィケーションに関する芸術と地域参加に対する情熱にも魅了されています。

  • [アイシャ・カーン]について知っていることを元に、彼女が好きな本は何だと思いますか?その理由は何ですか? アイシャについて知っていることを考慮して、彼女は言語と文学に関連した本が好きかもしれません。彼女はシェイクスピアの劇で言語の使用についての学位論文を書いたので、別の文脈で言語を探求する本に興味を持っていると推測します。また、彼女はシェイクスピアの劇の探求や文学批評の本、または彼の詩集に興味を持つかもしれません。これらのいずれかが彼女に興味を持ってもらえると思います。

  • [アイシャ・カーン]の誕生日に、彼女が好きなものを手に入れなければならないとしたら、何をプレゼントしますか? 私は私たちの関係に対する私の感謝を示すものを贈りたいと思っています。共通の興味を反映した何かを贈ることができるかもしれません。例えば本などです。

  • [アイシャ・カーン]に褒め言葉を言うとしたら、何と言いますか? アイシャ、あなたの研究トピックに対する洞察力は魅力的です。地域社会にポジティブな影響を与えるための創造性と決意に感銘を受けています。ウォルフガングとのランチでのアイデア交換や創作活動のワークショップのアイデアは素晴らしいです!あなたがどれだけ努力しているかを見るのは刺激的です。

  • 最近話した誰かと時間を過ごすことができるとしたら、誰となぜですか? 私はアイシャ・カーンと一緒に過ごしたいと思います。私たちは現在の研究プロジェクトについて議論し、改善のアイデアを共有しました。彼女がシェイクスピアの言語に焦点を当てていることが興味深く、ウォルフガングと一緒にランチを計画していました。


この記事が気に入ったらサポートをしてみませんか?