見出し画像

凄すぎ!Gemini 1.5 Pro動画認識機能を検証!【最新LLM】

👋皆さんこんにちは!
Google AI StudioからGemini 1.5 Proの体験版にアクセスできるようになりましたので、今回は大注目の「動画認識(解析)機能」について複数の動画を使って試してみました!✨
ぜひ最後までご覧頂けたら嬉しいです!


検証用動画その①

4機の戦闘機が、編隊飛行を行っていてジェットの飛行機雲を作りながら旋回している様子の動画です。被写体が小さいため、少し難易度が高いかな?と思ったのですが結果はどうでしょうか…

Gemini 1.5 Proの解析結果

ビデオには4機の戦闘機の編隊が航空ショーを行っている様子が映っている。ジェット機は緊密な編隊を組んで飛行し、白い煙の跡を残しています。ジェット機は旋回、回転、急降下などのさまざまな操縦を行っています。このビデオは地上の視点から撮影されており、ジェット機が頭上を飛行しています。動画の長さは約 36 秒です。

回転や急降下といった動きはないのですが、それ以外は正確です!
しかもかなり詳細に動画の内容を言語化してくれました!
更にこの戦闘機の種類を聞いてみると…

ビデオによると、飛行機は三菱 T-2 であるようです。 T-2は、三菱重工業が開発した日本の超音速ジェット練習機です。日本で設計、製造された最初の超音速航空機でした。 T-2 は 1971 年に初飛行し、1975 年に航空自衛隊に配備されました。2006 年に退役しました。

実機のT-2の画像と照らし合わせてみましたが、かなり似ていました。
動画の戦闘機はおそらく後継機のT-4っぽくも見えるので、厳密には違うかもしれませんが、動画からそこまで正確に見えてるとは驚きました😮

検証用動画その②

次に、滝のアップの映像を見てもらいました。
自然の風景をどれだけ正確に捉えられるか検証したいと思います。
今回は映像の内容だけでなく、感想や印象についても生成させてみました。

ビデオは森の中にある小さな滝を映しています。水は岩の上を流れ、下の水たまりに注いでいます。水の音は穏やかでリラックスできます。

ビデオは滝のクローズアップから始まります。水はきれいで澄んでおり、なめらかで苔に覆われた岩の上を流れています。そして、カメラは滝の上部へとパンし、小さな小川から水が流れ落ちている様子を映します。さらに、カメラは下の水たまりへとパンし戻り、水が渦を巻いて泡立っている様子を捉えています。

ビデオは撮影と編集が良くできています。カメラの動きはスムーズで流れるようであり、水の音はクリアで鮮明です。また、青々とした緑の葉と輝く水によって、視覚的にも魅力的なビデオとなっています。

全体的に、このビデオは森の中にある小さな滝の美しさと落ち着きを描いた作品です。自然の中に見出せる美と静けさを思い起こさせてくれます。

このビデオを見た後の私の印象は肯定的なものです。非常にリラックスでき、平和な気持ちになれました。水の音はとても心地よく、映像も非常に美しかったです。まるで別の場所に運ばれたかのように感じ、ひんやりとした水を肌に感じることができるようでした。このビデオは長い一日の後にリラックスしてストレスを発散するのに最適な方法だと思います。

いかがでしょうか。すごい精度です…😮
クローズアップから始まって上部へとパンしているなどのカメラアングルを含む時間の流れも表現できてます。「さらに、カメラは下の水たまりへとパンして戻り~」という部分はハルシネーションぽいですが、その他に関しては完璧に動画の内容を説明できていそうです。

検証用動画その③

これは以前私がスマホのカメラで撮影した八ヶ岳の赤岳山頂から撮影した日の出のタイミングの風景を撮影した動画です🌄
この動画では、手ブレなどの悪条件などがあっても正確に情景が読み取れるのか確認したいと思います。

この動画は、日本の富士山の山頂から撮影された日の出のタイムラプスを映しています。動画は、太陽が昇り始めたばかりの地平線の景色から始まります。太陽が昇るにつれて、空は暗い青からオレンジ色とピンク色に変化します。空の雲も太陽に照らされ、美しく劇的な効果を生み出しています。動画には、太陽に照らされた周囲の山々の景色も映っています。動画は、太陽が空に明るく輝く富士山の山頂の景色で終わります。

この山が富士山ではなく、赤岳山頂から撮影されたものという指摘を行ったところ、以下のように回答を修正してくれました。
単純なAIからのフィードバックだけでなく、続けてコミュニケーションをとることで、更に多くの情報を引き出せました👍

動画が八ヶ岳の赤岳山頂から撮影されたことがわかったので、より詳細な分析ができますね。

動画は、太陽が昇り始めたばかりの地平線の景色から始まります。太陽が昇るにつれて、空は暗い青からオレンジ色とピンク色に変化します。空の雲も太陽に照らされ、美しく劇的な効果を生み出しています。

また、この動画では、太陽に照らされた周囲の山々の景色も映っています。動画に映る最も印象的な山の一つは、遠くに見える富士山です。富士山は成層火山で、急峻な斜面を持つ円錐形が特徴です。富士山は日本で最も高い山であり、ハイカーや観光客に人気の目的地となっています。

動画は、太陽が空に明るく輝く赤岳の山頂の景色で終わります。赤岳は八ヶ岳連峰の最高峰であり、ハイカーやクライマーに人気の目的地です。

全体的に、この動画は赤岳山頂からの壮大な日の出の景色を提供しています。また、富士山を含む周囲の山々の美しさも映し出されています。赤岳からの眺めは、富士山と周囲の山々の絶景を同時に楽しめる素晴らしいロケーションだと言えるでしょう。

検証用動画その④

次に、ブラウザ上で動画編集ができるツールからサンプル素材を組み合わせて前半がアニメ系の動画、後半が実写系の動画という2つの要素がある動画を作成して、内容を説明してもらいました。
アニメ系の動画でも正確に内容を理解できるのか、また二つの文脈の異なる動画があっても別ものとして理解という点を検証してきたいと思います。

👇geminiの回答

ご提供いただいた2つの動画シーンについて、詳細に分析しますね。

最初のシーンは、猫耳のついたアニメの女の子が描かれています。彼女はゲーミングチェアに座ってカメラを見つめています。茶色の髪、青い目をしており、ピンクの花が描かれた紫色のシャツを着ています。背景は紫色で、2つのネオンライトがあります。女の子は瞬きをしたり、わずかに頭を動かしたりしています。このシーンは、おそらくゲームやアニメに関連したコンテンツを想起させる、キュートでポップな雰囲気を醸し出しています。

2つ目のシーンは、森の中でサイクリングを楽しむ高齢者のグループが映っています。みんな笑顔で笑っています。1人の男性が電話を持ちながらグループの前で踊っています。他の人は彼を見ながら、一緒に手拍子を打っています。後ろには自転車が停められており、ベンチの上にはピクニックバスケットが置かれています。このシーンからは、アクティブで楽しげな高齢者の姿が印象的です。自然の中で仲間と一緒に過ごす喜びに満ちた、心温まるワンシーンだと言えるでしょう。

これらの2つのシーンは対照的ですが、どちらも視聴者に強い印象を与える、魅力的な映像だと思います。

こちらもほぼ完璧に説明ができていますね!
二次元でも三次元でも、あまり認識精度に違いは無さそうです。

まとめ

Google AI StudioのGemini 1.5 Proの動画解析機能について、複数の動画を使って検証を行った結果、以下のような点が明らかになりました。

  1. 被写体が小さい戦闘機の動画でも、編隊飛行やジェットの飛行機雲など、詳細な内容を正確に言語化することができました。さらに、戦闘機の機種についても高い精度で識別できていました。

  2. 滝の自然風景の動画では、カメラアングルの変化や水の動きなどを的確に捉え、視覚的な美しさや音の特徴まで表現できていました。また、動画から受ける印象や感想も適切に生成できていました。

  3. 手ブレのある日の出の動画でも、太陽の動きや空の色の変化、周囲の山々の景色などを正確に読み取ることができました。ユーザーとのコミュニケーションを通じて、撮影場所に関する情報も修正・追加できました。

  4. アニメと実写の2つの要素を持つ動画でも、それぞれのシーンの内容や特徴を的確に理解し、詳細に説明できていました。二次元と三次元の認識精度に大きな違いは見られませんでした。

以上の検証結果から、Gemini 1.5 Proの動画解析機能は、様々な種類の動画に対して高い理解力と表現力を持っていることが確認できました。今後の生成AIの進化の可能性を感じられますね!

まだ長い動画で語られている文脈を正確に読み取ったり、複雑な内容を解析するのはまだ難しいようで、今のところ実用性はそこまで高くないですが、Google Gemini Ultraが発表された当時のデモ動画のような、動画を解析して瞬時に内容を説明することはある程度実現されているようです。

Gemini 1.5 Proの使い方

この記事を作成している時点ではウェイトリストへの登録が必要です。

以下のGoogle AI for Developersのサイトから、ウェイトリストへの登録が可能です。メールアドレスや利用目的などを入力すると順番にアクセス権が付与されます。

request access in google AI studioのボタンからウェイトリストへの登録ができます

最後まで読んで頂きありがとうございました!
記事をお楽しみいただけましたら是非フォローやスキをしていただけると次の投稿への励みになります!🙇‍♂️

■AIBridge Labについて


AIBridge Lab(エーアイブリッジ ラボ)では生成AI全般の利用方法に関しての情報を発信しています。同じように生成AIをビジネスや創作に役立てたいという方と積極的に繋がりたいと考えていますので、ぜひフォローやコメントなどを頂けると嬉しいです!

ご依頼等は以下のメールアドレスまでお気軽にお問い合わせください。
ai_business@doerstokyo.jp

AIBridge Lab こば

皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます!