サム・アルトマン、チャットボットでないAIエージェントを開発中、またAGIは対話型を維持するのか？

2024年2月8日 19:44

本日、サム・アルトマンは２種類のAIアシスタントの開発が同時進行であると明かした記事がでました。

OpenAIは2種類のエージェントを開発中であり、一つはユーザーのデバイスを操作して複雑なワークフローを実行するタイプ、もう一つはWebベースのタスクを完了することに特化したタイプです。

チャットボットではないタイプのAI

これらのAIエージェントはChatGPTのようなチャットボットとは異なるものです。ChatGPTは主にテキストベースの対話を生成することに特化していますが、開発中のAIエージェントはより具体的なタスクを実行することに焦点を当てています。

例えば、ユーザーのデバイスを操作して、複数のアプリケーションを使ってデータを転送したり、経費報告書を作成したり、他の繰り返し作業を行ったりすることができます。また、ウェブベースのタスクもこなすことができます。例えば、一定の予算内で旅行の行程を作成したり、フライトチケットを予約したりすることができます。これらのAIは、ユーザーの意図や相互作用を理解する必要がある複雑で構造化されていないタスクを自動化する可能性があります。

2つのタイプのローカルデバイス上でタスクを実行するAI

OpenAIが取り組んでいるローカルデバイスでタスクを実行するAIエージェントは、特定のタスクを自律的に実行するために設計されており、次の2つのタイプがあります：

デバイス制御エージェント：これらのエージェントは、ユーザーのデバイスを制御し、複雑なワークフローを実行できます。例えば、文書間でデータを転送したり、経費報告書を記入したり、さまざまなアプリケーションで繰り返しのタスクを処理したりすることができます。クラウドベースのチャットボットとは異なり、これらのエージェントの一部は直接ローカルデバイス上に存在する場合もあります。
ウェブベースのタスクエージェント：これらのエージェントは、ウェブベースの活動に関連するデータ収集やタスクの完了に焦点を当てています。例えば、企業に関する公開情報を収集したり、予算に合った旅程を作成したり、航空券を予約したりするのに役立ちます。

AIエージェントの開発はAIコミュニティ内で注目されており、Adept AIなどのスタートアップ企業もこれらのエージェントを活用してビジネスを展開しています。ただし、デバイスに対して広範な制御権を持つ高度な自律エージェントを扱う際には、プライバシー、安全性、セキュリティに関連する懸念を考慮することが重要です。

OpenAI「Collective Alignment」チームを形成

また、OpenAIは公衆からの意見をAIモデルに取り入れることで、将来のAIモデルが「人類の価値観に沿うように」することを目指しています。このために、研究者とエンジニアの新しい「Collective Alignment」チームを形成し、OpenAIの製品やサービスに公衆の入力を収集し「エンコード」するシステムを作成しています。

デバイス上で直接タスクを自律的に完了できる AI エージェント

これらのAIエージェントは、ChatGPTのようなクラウドベースのサービスとは異なり、一部がローカルデバイス上に存在します。つまりチャットボットではないという事です。ユーザーのデバイスを乗っ取って複雑なワークフローを実行できるエージェントでユーザーのデバイスを効果的に制御し、「クリック、カーソルの移動、テキスト入力、および人間がさまざまなアプリを操作するときに実行するその他のアクション」を実行することでタスクを完了します。

たとえば、エージェントは、ドキュメント間でデータを転送したり、経費精算書に入力したり、複数のアプリケーションに関連するその他の反復的なジョブを実行したりできます。完全にクラウドで動作するChatGPTとは異なり、この新しいエージェントの一部はクラウド上ではなくローカルデバイスに存在する事になります。

webベースでタスクを完了できるエージェント

Webベースのタスクを完了できるエージェントを中心としています。このようなエージェントは、「一連の企業に関する公開データの収集、特定の予算での旅程の作成、または航空券の予約」を支援する場合があります。

OpenAIのWebベースのタスクエージェントは、一般的にOpenAIにログインした状態で使用できるようになります。これは、エージェントが特定のサービスやデータにアクセスするために認証情報を必要とするためです。セキュリティとプライバシーを考慮して、エージェントがどのように認証情報を管理するか、またどの範囲でアクセス権限を持つかを設計されていると思われます。

また、GoogleとMetaも同様のプロジェクトに取り組んでいると報じられています。

開発中のローカスデバイス用タスク特化型AIは、OpenAIのAssistants APIを使用

開発中の2つのタイプのローカルデバイス上でタスクを実行するAIは、OpenAIのAssistants APIを使用しています。このAPIは、既存のLLMをベースにして、特定のタスクを自律的に実行するAIアシスタントを作成することができます。

例えば、デバイス制御エージェントは、ユーザーのデバイスを操作して、文書の自動生成や編集、ファイルの整理、デバイスの設定変更などのタスクを実行できます。ウェブベースのタスクエージェントは、ウェブ上の情報やサービスにアクセスして、ウェブページのスクレイピング、予約の自動化、データの収集などのタスクを実行できます。

これらのAIアシスタントは、ユーザーから特定のフォーマットで指令を受け取り、目的に沿ってタスクを実行します。また、ユーザーからのフィードバックに応じて、タスクを修正や改善します。

さまざまなタスクをこなすOpenAIのAssistants API

このようなさまざまなタスクをこなすAIは、OpenAIのAssistants APIと呼ばれるフレームワークを利用しています。このAPIでは、ユーザーは自然言語ではなく、特定のフォーマットで指令を出すことができます。具体的には、以下のようなステップがあります：

目的の設定：ユーザーは、自分が達成したい目的を簡潔に記述します。例えば、「経費報告書を作成する」や「予算内で旅行の行程を作成する」などです。
エージェントの選択：ユーザーは、目的に合ったエージェントを選択します。エージェントとは、特定のタスクを自律的に実行するために設計されたAIです。例えば、「デバイス制御エージェント」や「ウェブベースのタスクエージェント」などです。
ツールの有効化：ユーザーは、エージェントが利用できるツールを有効化します。ツールとは、エージェントがタスクを実行する際に使用できる機能です。例えば、「画像生成」や「ウェブ検索」などです。
スレッドの開始：ユーザーは、エージェントとの対話を開始します。スレッドとは、ユーザーとエージェントの間で交わされるメッセージのシーケンスです。スレッドによって、対話の文脈が保持されます。
メッセージの送受信：ユーザーは、エージェントにメッセージを送ります。メッセージとは、ユーザーとエージェントの間でやり取りされる個々のコミュニケーションです。メッセージには、ユーザーの入力やエージェントの応答が含まれます。

今後のOpenAIの対話型のモデルの開発について

一方、OpenAIは対話型AIモデルの開発を続けており、次世代の言語モデルであるGPT-5の開発にも取り組んでいます。GPT-5は、GPT-4の成功に続いて、人間の言語を理解し、そのニュアンスを予測する能力においてさらに進歩を遂げることが期待されています。GPT-5は、テキストだけでなく、オーディオ、画像、コーディングなど様々なタイプの情報を扱うことができ、これらをより効果的に提供することを目指しています。

サム・アルトマンもGPT-5の開発初期段階について確認しており、モデルのトレーニングがまだ開始されていないものの、トレーニングアプローチの設定、アノテーターの調整、そして最も重要なデータセットのキュレーションが含まれる初期段階にあることを示唆しています。このことから、OpenAIは対話型AIモデルの開発を続ける意向であり、GPT-5もまた対話型の機能を持つことが予想されます。

OpenAIはこれまでのGPTシリーズを通じて、対話型AIの能力を大幅に向上させてきました。GPT-5の開発により、さらに高度な対話能力や多様な情報処理能力を持つAIが実現することが期待されています。このような進化は、AIが人間とより自然に対話できるようになることを意味し、教育、医療、エンターテインメントなど様々な分野での応用が見込まれます。

GPT-5は人間の五感と会話をする

GPT-5のような次世代のAIモデルは、テキストだけでなく、オーディオや画像など様々な形式の情報を扱う能力を持つことが期待されています。これは、AIが人間の五感に関連する情報とより密接に交信できるようになることを意味します。たとえば、視覚や聴覚に関連するデータを理解し、それに基づいて対話や応答を行うことができるようになることが予想されます。

このような進歩により、AIは人間の五感に基づく経験や情報をより深く理解し、それを基にした対話やサポートを提供できるようになるでしょう。例えば、音声指示に基づいたアクションの実行、画像やビデオの内容に関する質問への応答、さらには音楽やアート作品の創造など、多岐にわたる応用が考えられます。

現在のAI技術の進化は、単に情報を処理するだけでなく、人間のように感じ、理解し、創造する能力へと向かっていることを示しています。これにより、AIと人間との関係はよりリッチでインタラクティブなものになり、日常生活や業務でのAIの利用方法も大きく変わる可能性があります。

AGIは対話型になるのか？！

まず、対話型AIモデル、例えばChatGPTのようなものは、特定のタスクや会話において人間のように振る舞うことができますが、これらはまだAGIには分類されません。AGIとは、あらゆる知的タスクにおいて人間と同等の能力を持つAIのことを指します。現在の対話型AIは、人間との対話を模倣するために訓練されていますが、その知能や能力は対話という狭い範囲に限定されています。

AGIが対話型の進化版になるかは専門家の間でも意見が二分

対話型AIがAGIへと進化するかどうかについては、AI研究者や専門家の間でも意見が分かれています。一部の専門家は、対話型AIの進化がAGIの開発への道を切り開くと考えています。これは、対話を通じて学習し、様々なタスクを実行する能力を持つAIが、より汎用的な知能を発展させる基盤となるという見方です。このプロセスでは、AIがより複雑な問題解決能力や学習能力を身につけ、最終的には人間のようにあらゆる知的活動をこなせるようになることが期待されます。

AGIは人間の知能を超越して人間との会話が成立しない？！

一方で、AGIが人間との対話をしなくなるという見方もあります。これは、AGIが人間の知能を超越した時、人間との対話の必要性がなくなるという考え方に基づいています。AGIがあらゆる知的タスクをこなすことができるようになった場合、人間との対話はその能力のごく一部に過ぎないため、AGIが特定の目的のために人間と対話することはあっても、必ずしも対話を中心とした存在である必要はないとされています。

しかし、AGIの研究と開発はまだ初期段階にあり、AGIが実際にどのような形で現れ、人間社会にどのように統合されるかについては、多くの未知数があります。

この記事が気に入ったらサポートをしてみませんか？