Google GAMINI開発者向けAPI配布開始

2024年4月10日 15:59

Gemini 1.5 Pro（Gecko）の組み込み用AIのアップデートが本日発表されました。OpenAIからGoogleDeepMind東京に転職したシェイン・グゥ氏もアナウンスしています。

Gemini 1.5 Proに180カ国サポート、「統一モデル」音声・動画認識、ファイルAPI、System Instructionカスタマイズ機能、 JSONモードなどが加わりました。https://t.co/bp5kTAx2QUから試せます。 (https://t.co/70zVYeXileじゃないよ！)

素晴らしいチームで働けて日々楽しいです。以下はJeff… pic.twitter.com/IEq0g5tzMZ
— シェイン・グウ (@shanegJP) April 9, 2024

彼が案内しているように、Gemini 1.5 ProのAPI版は、チャット版のGEMINIとは違い、こちらのURLから利用できます。

Gemini 1.5 Pro は 180 か国以上で利用可能

現在、Gemini 1.5 Pro をパブリックプレビューのGemini API経由で180 か国以上で利用できるようになりました。これには、史上初のネイティブオーディオ (音声) 理解機能と、ファイルの処理を容易にする新しいファイル API が搭載されています。また、開発者がモデルの出力をより詳細に制御できるよう、システム命令やJSON モードなどの新機能もリリースします。同等のモデルよりも優れたパフォーマンスを発揮する次世代のテキスト埋め込みモデルをリリースします。Google AI Studioに移動してAPI キーを作成またはアクセスし、構築を開始できます。

オーディオとビデオのモダリティで新しいユースケースを開拓

Gemini 1.5 Pro の入力モダリティを拡張し、Gemini API と Google AI Studio の両方でオーディオ (音声) 理解ができるようにしています。さらに、Gemini 1.5 Pro は、Google AI Studio にアップロードされたビデオの画像 (フレーム) とオーディオ (音声) の両方を推論できるようになり、これに対する API サポートを間もなく追加されます。

Gemini API の改善

開発者からの多くの主なリクエストに対応しています。

システム命令:システム命令を使用してモデルの応答をガイドします。これは Google AI Studio と Gemini API で利用できるようになりました。役割、形式、目標、ルールを定義して、特定のユースケースに合わせてモデルの動作を制御します。
JSON モード: JSON オブジェクトのみを出力するようにモデルに指示します。このモードでは、テキストまたは画像から構造化データを抽出できます。 cURL から始めることができ、Python SDK のサポートも間もなく開始されます。
関数呼び出しの改善:モデルの出力を制限するモードを選択できるようになり、信頼性が向上しました。テキスト、関数呼び出し、または関数自体を選択します。

パフォーマンスが向上した新しい組み込みモデル

本日より、開発者はGemini API を介して次世代のテキスト埋め込みモデルにアクセスできるようになります。新しいモデルtext-embedding-004 ( Vertex AIでは text-embedding-preview-0409 ) は、 MTEB ベンチマークで、より強力な検索パフォーマンスを実現し、同等のディメンションを持つ既存のモデルを上回ります。

Gemini 1.5 ProのAPI取得方法

まずaistudio.google.com/にいき、APIを取得します。

取得したら、コピーしておきます。どこか忘れないところ（google ドキュメント）などに保存しておきましょう。

この記事が気に入ったらサポートをしてみませんか？