見出し画像

Gemini 1.5 Proの新機能 - Native Audio Understanding、System Instructions、JSON Mode、新Embeddingモデル

以下の記事が面白かったので、簡単にまとめました。

Gemini 1.5 Pro Now Available in 180+ Countries; With Native Audio Understanding, System Instructions, JSON Mode and More


1. Gemini 1.5 Proの新機能

現在、「Gemini 1.5 Pro」を「Gemini API」経由で180か国以上で利用できるようになりました。これには、史上初の「Native Audio Understanding」、ファイルの処理を容易にする新しい「File API」、開発者がモデルの出力をより詳細に制御できるよう、「System Instructions」「JSON Mode」などの新機能もリリースします。さらに、新Embeddingモデルもリリースしました。

2. Native Audio Understanding

「Native Audio Understanding」は、「Gemini 1.5 Pro」の入力モダリティを拡張し、「Gemini API」と「Google AI Studio」の両方でオーディオ (音声) 理解ができるようにしています。さらに、「Gemini 1.5 Pro」は、「Google AI Studio」にアップロードされた動画の画像 (フレーム) とオーディオ (音声) の両方を推論できるようになり、これに対する API サポートを間もなく追加すします。

3. System Instructions

 「System Instructions」で、モデルの応答をガイドします。これは「Google AI Studio」と「Gemini API」で利用できるようになりました。役割、形式、目標、ルールを定義して、特定のユースケースに合わせてモデルの動作を制御します。

4. JSON Mode

 「JSON Mode」で、JSONのみを出力するようにモデルに指示できるようになりました。このモードでは、テキストまたは画像から構造化データを抽出できます。 cURL から始めることができ、「Python SDK」のサポートも間もなく開始されます。

5. Function Callingの改善

Function Calling」で、モードを選択してモデルの出力を制限できるようになり、信頼性が向上しました。 テキスト、関数呼び出し、関数自体を選択します。

6. 新Embeddingモデル

新Embeddingモデル「text-embedding-004」 (Vertex AI では「text-embedding-preview-0409」) は、MTEBベンチマークで、より強力な検索パフォーマンスを実現し、同等の次元を持つ既存のモデルを上回るパフォーマンスを示します。



この記事が気に入ったらサポートをしてみませんか?