Googleが「Vertex AI Agent Builder」をリリースしました。これはコードを書かずにAIエージェントを作成できるツールで、技術的な背景に関わらず誰でも使用できます。このビルダーを使って、オンラインでのショッピング支援や顧客サービスなど、日常のオンラインタスクを自動化するエージェントを構築できます。この動画では、そのセットアップと使用法をリアルタイムで試しながら解説します。また、このツールが実際にどれほど有効か、または問題があるかを検証します。
公開日:2024年4月13日
※動画を再生してから読むのがオススメです。
数日前、私はこのビデオを投稿しました。GoogleがAIエージェントを発表し、それらをすべてのシステムに組み込んで、顧客サービスの支援、ショッピングの支援、日常的に行うさまざまなオンラインタスクの自動化を手伝ってくれると述べていました。
そして今日、このものが一般に公開され、私たち全員が試してみて、どれくらいうまく機能するかを見ることができます。
それをエージェントビルダーと呼んでいます。
私は試していません。
今日はあなたと一緒にライブでやってみます。
それを試して、どれくらいうまく機能するか、あるいは機能しないかを見て、お見せします。
どれくらい優れているかはわかりませんが、GoogleはノーコードのAIエージェントビルダーをリリースすると約束しており、技術的なバックグラウンドに関係なく、誰もがそれを使用して自分のビジネスや個人の生産性のために独自のエージェントを構築できるようになるとしています。
それでは、さっそく始めましょう。
まず、試してみるために、cloud.google.com/Vertex -AIでVertex AIを見つけます。それがこのページにつながります。
こちらに案内されるコンソールで試してみるつもりですが、エージェントを検索しようと思いますが、こちらがエージェントビルダーです。
あなたのものを盗み見てもいいですか?
もちろんです。
なぜだめですか?
それから、環境を設定するのに数秒かかります。
ここではいくつかの選択肢があります。
私たちは、チャットの推奨検索を持っており、コンテンツ推奨エンジンを作成することができますが、自然言語エージェントを使用して構築されたこのエージェントは、ビジネスシステムと接続されたデータから質問に答えることができ、ツールを通じてそれらを作成していくことができます。
それをエージェントゼロと呼ぶつもりです。
他に何かありますか?
それから、新しいアプリを作成するをクリックします。
それは何度かクラッシュしたり、進行しなかったりしました。
異なる地域、異なる名前を試しています。
やったー。
それには、それには時間がかかりました。
何度かクラッシュしました。
たくさんのこれらを誤って起動してしまったかもしれませんが、大丈夫です。
デフォルトでは生成モデルはGemini 1.0 proですが、設定で公開された完了したエージェントによって使用されるモデルを変更することができます。
ちょうどこれを見ました。
Google CloudのVertex AIで、Cloud Three Opusがパブリックプレビュー中です。
ここにそれを追加する方法を見つけられるといいですね。
私たちはこれを作業に変える予定です。これは販売アシスタントになり、目標は顧客が私のウェブサイトの指示に従って注文するのを手助けすることです。
あなたは指示に従ってください。
私たちは、あなたがオンラインストアから商品を購入するのを手助けする役立つアシスタントであると言います。
そしてここでは、このエージェントを手伝うためにツールを使用したり、他のエージェントに電話してこのエージェントを手伝うことができます。
私はこれをコピーしてここに貼り付けます。
ユーザーに挨拶をし、その後、今日どのようにお手伝いできるかを尋ねます。
ユーザーのリクエストを要約し、正しく理解したか確認してください。
必要に応じて、明確な詳細を求めてください。
ツールを使用してユーザーがタスクを遂行できるようにお手伝いください。
複雑なサブタスクをユーザーが遂行できるようにエージェントを使用してください。
お客様のご利用ありがとうございました。さようなら。
この機能を使用するためには、まずツールとエージェントにそれらのものを定義する必要があります。
それを削除します。
あ、これは保存されています。
移動する前に保存をクリックしなければなりません。
ツールを使用すると、オープンAPIデータストア機能を利用できます。
ツールを使用し始めるには、APIについて少し知っていて、異なる機能を接続する方法を知っている必要があります。
これは、ウェブ開発者向けにより重点を置かれているかもしれませんが、それは残念です。
彼らがこれをより簡単でアクセスしやすくすることができればいいのですが、統合は行われています。
主にメッセージング向けのいくつかの事前構築されたアプリケーションがあります。
このものをいじっているのに約1時間を費やし、いくつかのエージェントを構築し、それらを接続して実際に特定のタスクを実行させることができました。必要に応じて他のエージェントを引き込むことができます。
例として、こちらがセールスアシスタントエージェントです。
そして、コードエージェントもいます。
セールスアシスタントエージェントは、お客様がオンラインストアから商品を購入し、注文の合計金額を計算するのを手伝う役立つアシスタントであると伝えており、このエージェントコードを使用します。
私が構築した2番目のエージェントです。
私たちが解決したいいくつかのタスクを解決するために、そのエージェントを呼び出しているんですよね?
コードエージェントを呼び出しています。
お客様が何かの価格を尋ねた場合には、消費税と合計金額を計算するようにし、そして、自分で計算しないように伝えています。
そして、コードエージェントに移動すると、コードエージェントは税金と合計金額を計算するのを手伝う役割を持っていますね?
Rick and Mortyのロボットのような感じですね?
これはバターを渡すことができます。
指示ですが、別の担当者があなたに電話して、合計金額がいくらか尋ねるでしょう。
ご存知の通り、ここにシャツが5ドル、パンツが10ドルと書いてあります。
一般的にやりたいことは、データストアをここかここに接続することです。設定では、ラグの取得、拡張生成ができます。
基本的には、シャツやパンツの価格など、持っているデータを引き込むことができます。
それから、ツールを使用してほしいとお願いしています。
そのツールは、コードインタプリターと呼ばれていますね。
ここでご覧の通り、これはこのバーテックスAI AIビルダー、AIエージェントビルダー内で利用可能な拡張機能の1つです。
コードインタプリターは、OpenAIが持っているものに似ており、計算や数字などの処理ができます。
このコードエージェントは、それを使用して売上税の小計と合計を計算します。
もう一度他のエージェントに戻る予定です。
実際にはそうはしない方法です。
私は今すぐに気づいたのですが、少なくとも私にとってはこれは最初からあまりうまくいっていないことをお伝えします。
その理由は、実際にはここに例を示して、例を提供する必要があると思います。
これらは大規模言語モデルのための効果的なフューショットプロンプトの例です。
その相互作用がどのように進行するかを詳細に説明します。
そして、それらを入れた後、実際にはうまく機能することができます。
しかし、実際には、これが効果的に機能する能力は、あなたの例がどれほど良いか、どれだけの例があるかに大きく左右されるようです。
私はこれを動作させることができましたが、あまりうまくいきませんでした。
ただし、こちらにはたくさんの例がある、事前に構築されたDMVステアリングエージェントがありますね?
こちらに全てがあります。
そして、この例の情報を見ていただくと、その会話がどのように進むかが分かりますね。
その人、ユーザー、お客様が、「フィールドオフィスでの予約をしたい」と言うと、それが予約アクションをトリガーしますね。
予約アクションはアクションの1つであり、それを行うためにAPIを使用しています。
そして、目標には他の多くの例があることが分かるように、エージェントには、顧客のリクエストを収集し、顧客を適切なサービスに誘導することが目標であることを伝えています。
まずはお客様に挨拶をして、「運転免許の更新などのお手伝いができる」と伝えます。
直接お客様を助けようとしないでくださいね。
それはあなたの仕事ではないと言っているのです。
やめてください。
常に直接別のトピックに移してください。
お選びいただけるトピックがいくつかあります。
このエージェントに送信していただければ、地元の支所での予約のための運転免許更新エージェント、予約のためのエージェントへの転送、上記のトピックとは関係のないトピックや料金や価格などの機密性の高いトピックについては、人間のエージェントに転送します。
さて、これをすぐに調べてみましょう。
そして、DMVの更新ツール、DMVの予約ツール、コードインタプリターなど、いくつかのツールが添付されていますね。
そして、こちらが私たちが持っている4つのエージェントです。
予約をしたいという要望があった場合、予約のためのエージェントを呼び出しました、このアクション。
そのエージェントを見てみましょう。
そして、このツール、DMVの予約ツールを使用して、顧客に支所と住所のリストを返信することを伝えています。
顧客に利用可能な支所の中から1つを選択し、その支所を予約ツールを通じて設定するようにお願いします。
もし顧客が他のことを希望する場合は、エージェントフォールバックを行ってください。
これをリセットしましょう。
私たちはこのエージェントをテストするためにGMI 1.0を使用します。
そして、こんにちは、と言います。こんにちは、私はあなたのDMVアシスタントです。
どのようにお手伝いしましょうか?
予約を入れたいと言います。
そして、予約を手伝うことができますと言います。
ここで注目してください、エージェントを呼び出しました、予約エージェントですね。
元の、星印のもの、DMVステアリング、予約を入れたと言いました。
私をこのエージェント、予約エージェントにリダイレクトし、住所を提供してと言います。
ここに私の住所を入力して、進むをクリックします。
いいえ、そうですね。
見つけられません。
コード上では、URLがexample.comとだけ書かれています。
実際には何にも接続されていません。
それはかなり明らかであるべきだったと思いますが、これはその機能を提供するものです。
適切に設定されていれば、予約を見つけることができます。
時間枠を選択するのに役立ち、などなどです。
例えば、小売りなど、テストできるプリビルトのものもいくつかあります。
ジェネレーティブプレイブックを使用している場合、多くのものはグローバルに設定する必要があります。
それは設定する必要がある特定のものです。
そして、ここでもまた気づいているのですが、彼らは常に別のトピックに直接移っています。
お客様が欲しいものがわかるとすぐに、商品を検索するか注文をするかを任されます。
GoogleストアAPIに接続されています。
ショッピングカートを管理し、注文をすること、そしてコードインタプリターがオフになります。
これらは会話が進行する例です。
例えば、私は携帯電話を買いたいと言うと、商品検索エージェントに案内されます。
彼らはそのようなトップレベルのエージェントをステアリングと呼んでいます。
私たちは携帯電話を買いたいと言うと、GoogleストアAPIを検索します。
再び、何も返ってこないのは、彼らが使用しているのが実際の機能コードではないからですが、その状況では、それらの携帯電話を検索し、最終的にあなたに回答を返します。
これは何を意味するのでしょうか?
それは良いですか?
それは悪いですか?
それは役に立たないですか?
それは革命的ですか?
まあ、まず、私は彼らが確かにいくつかのことをうまくやったと思います。
指示を書く能力
そして、それをエージェントに投げるためにこれを入力するだけです。
これは初めて扱う場合には混乱するかもしれませんが、結局のところ、これは単なる文字の連続です。
そして、エージェントの名前を書き出し、そのエージェントを呼び出すためのあなたの魔法の呪文のようなものです。
そして、エージェントの名前はあなたが作り出すものです。
もし私がこれをコピー&ペーストすれば、基本的にこれは別のエージェントを立ち上げて、そのことに答えるために使用するものですね、そうですか?
そして、そのエージェントの名前を入力して、準備が整います。
ツールも同じです。
ツール名の代わりに、まあ、ツールの名前、何であれ、ブラーと入力します。
これがおそらく未来の姿です。
これが、私たちが複数のエージェントを持つエージェント群を作成する方法です。
それぞれが、私たちのために特定の特定のタスクを実行するように教えられています。
そして、それを行うために呼びかける一種のマスターエージェントが1つあります。
もちろん、誰かがコーディング方法を本当に知らない場合、ウェブ開発者としてこのようなことを行っていない場合、必要なジェイソンなどを使用することが少し複雑かもしれません。
しかし、クラウドスリーやGPTフォーのような多くのこれらのチャットボットは、ある程度これを提供することができ、それについてますます上達しています。
コーダーやウェブ開発者の方にとっては、これはかなり簡単なことでしょう。
おそらく、コーダーでない人にとっては、それを学ぶのに少し手間取るかもしれません。
指示や他のエージェントなど、本当に正しく押さえなければならないことはそれほど複雑ではありません。
この例のセクションをたくさんの例で埋める必要があるようです。エージェントに正確に何をすべきかを明確に示す例がたくさん必要です。
このセクションがより良くなれば、それに対する回答もより良くなります。
言うまでもなく、これらは少し機能が増えた、少し理解力が増したチャットボットの洗練されたバージョンです。
これはまだAIエージェントのChatGPTの瞬間ではありません。
ただし、これを見ると、これがどのように配置されているかを理解することが重要です。NVIDIAやOpenAI、Microsoftからのさまざまな研究論文で見てきたすべてから、ここで見ているものは、過去に使用していたコードの多くを置き換えることになるでしょう。
コードのページだけでなく、コンピューターで行う作業の多くは、これに似たものになるでしょう。
それはほとんどが自然言語であり、私たちがAIに何をさせたいのかを通常の言語で非常に具体的な指示を書いていることになります。
ここに少しのコードの断片を追加する予定ですが、特定のことを行う必要があるときに。
それか、次の波はそれ自体がどのAPIを呼び出すか、どのWebhookを使用するかを知ることができるようになると思います。
それはその言語を特定のコード断片に変換するようです。
しかし、重要なのは、これまでのようなコードではなく、ますますこれがAI研究論文で使用されていることを見ています。
そして、Googleはここで、かなり基本的な初期段階のAIビルダーを構築したと思いますが、まだまだ進むべき道のりがあります。
とにかく、それではご視聴ありがとうございました。
それが役立つことを願っています。
いくつかの方はこれが少し期待外れだと思うかもしれませんが、重要なことはこの分野が急速に前進しているということです。
Googleや他社が改善と繰り返しを続ければ、すぐにかなりクールなものが見られるでしょう。
これ、これが正しい方向に進む一歩です。
それでは、私の名前はウェス・ロスです。ご視聴ありがとうございました。