イーロン・マスク率いるxAI、画像認識機能搭載のマルチモーダルAI「Grok-1.5V」が空間認識能力で他モデルを凌駕！

2024年4月16日 12:37

イーロン・マスク率いるxAIは、言語モデル「Grok」の機能を拡張した初のマルチモーダルモデル「Grok-1.5V」を発表しました。Grok-1.5Vは従来のテキスト処理能力に加え、文書、図表、グラフ、スクリーンショット、写真などの視覚情報を理解することができます。既存のGrokユーザーと一部のテスト担当者は近日中にGrok-1.5Vを利用できるようになります。

Grok-1.5Vは、学際的な推論から文書、科学図表、チャート、スクリーンショット、写真の理解まで、幅広い分野で最先端のマルチモーダルモデルと同等かそれ以上の能力を発揮します。特に、Grok-1.5Vはリアルワールド理解において優れています。xAIが開発した新しいベンチマーク「RealWorldQA」では、実際の空間認識能力を測定し、他モデルを凌駕しています。

リアルワールドで役立つAIアシスタントを開発するには、モデルが物理世界を理解することが不可欠です。RealWorldQAは、マルチモーダルモデルの基本的な空間認識能力を評価するための新しいベンチマークです。現時点のベンチマークにある問題は人間にとっては簡単ですが、最先端のモデルにとっては依然として課題となっています。

ピザカッターとハサミではどちらの物体が大きいですか? A. ピザカッターの方が大きいです。 B. ハサミの方が大きいです。**C. 大きさはほぼ同じです。**

この写真を考えると、恐竜はどの基本方向を向いていますか? A.北です。 B.南。**C.東**。 D.西。

初期公開のRealWorldQAは、700を超える画像で構成されており、各画像には質問と簡単に検証可能な答えが用意されています。データセットは匿名化された車載画像とその他のリアルワールド画像で構成されています。xAIはRealWorldQAをコミュニティに公開することに意気込みを見せており、マルチモーダルモデルの向上に伴い、データセットの拡張も予定されています。RealWorldQAはCC BY-ND 4.0ライセンスで公開されています。

マルチモーダル理解と生成機能の向上は、宇宙を理解できるような有益な汎用人工知能 (AGI) を構築するための重要なステップです。xAIは今後数ヶ月で、画像、音声、動画など様々なモダリティにおいて、マルチモーダル理解と生成機能の両方を大幅に向上させる予定です。

詳細内容は、xAIが提供する元記事を参照してください。

【引用元】

【読み上げ】
VOICEVOX 四国めたん/No.7

この記事が気に入ったらサポートをしてみませんか？