見出し画像

『生成AI「動画を文章で表現する」新技術をNECが開発』~【新しいweb3ビジネスのアイディアのタネ】2023.12.4


■生成AI 動画を認識し文章で表現する新技術 NECが開発

生成AIの新たな活用技術を日本の大手企業が開発しました。
AIが動画の内容をみずから認識して文章で表現する技術で、ドライブレコーダーの動画から交通事故の原因を分析するなどAIの活用の幅が広がりそうです。

「言語化能力が高い」という人がいますよね。
起きている事象、映画の感想、思い出の風景などを「言葉」で説明する能力が高い人で、スマートに言葉で説明されると、その人に対して非常に賢い人なのだなぁという印象を抱きます。

そんなスマートなAIソリューションをNECが開発しました。


100種類以上のAIを組み合わせて「映像の文章化」を実現

100を超える複数のAIがいわば協力して動画を認識するのが特徴で、人物やモノなどそれぞれの認識を得意とするAIがまず、断片的なことばとして文字化します。その認識結果を生成AIがとりまとめ、文章に整える仕組みです。

生成AIといえばこれまで、文章から画像・映像などを作れることが画期的だとされてきました。しかし今回NECが開発したのは「映像を文章で説明する」という逆向きのアウトプットをする技術です。

「When:いつ」「Where:どこで」「Who:だれが」「What:何を」「Why:なぜ」「How:どのように」という5W1Hのような文法に則って文章化すると作りやすいだろうと想定できます。

ものを描写する、道案内する、など、言葉で説明することを小学5・6年生に向けて伝えるNHKの番組でも、5W1Hのフレームワークで言語化を試みています。

それぞれのWに対して得意なAIを複数組み合わせれば「動画を文章で説明する」を実現できそう、というのが着想だと思いますが、実際には非常に難しいハードルをクリアしなければなりません。

「When:いつ」は、タイムスタンプや映像上の相対時間を拾えばいいケースであれば簡単です。映像内の時代背景を読み取らなければならない場合は難易度が上がります。

「Where:どこで」は、撮影された位置情報がGPSで記録されていたり、撮影用カメラの設置場所がデータで記録されていればAI不要ですが、映像から場所を探し出すような使い方だと難易度が上がります。

「Who:だれが」は、NECは顔認証など独自の技術を持っていますから、映像から人物を特定するのは得意分野でしょう。データベースに登録されてない人であっても、映像内の登場人物を分類する使い方もできます。

「What:何を」は、物体の種類を認識することで実現ができます。Googleレンズでも実現されている通り、花の種類を見分けられるほど現在では高精度です。

「Why:なぜ」と「How:どのように」は、非常に難易度が高い部分です。「バットを振った」というシーンが、プロ野球の試合なのか宝石店の監視カメラの映像なのかで意味が全く変わってきます。

動機を推測するような使い方は想定されていないかもしれませんが、「映像を文章で説明する」を極めていくと、いつかは到達できるかもしれません。


ドライブレコーダー分析などが視野

この技術によって、例えば、ドライブレコーダーの動画から交通事故の原因を分析して報告書を作成したり、建設現場の動画から作業記録を作成したりといった活用を想定しています。

ドラレコに映った交通事故の状況報告書を映像から自動的に作成するような使い方が想定されています。事故はある程度パターン化されていますし、近年のドラレコの普及から学習データもかなり豊富にありますので、比較的実現しやすい分野だろうと思います。

事故原因を言葉で書き表す際に、どこまで客観的に書けるかは課題があるかもしれません。文章の書き方次第では、事故当時者のどちらの過失割合が高いかの印象を操作してしまう可能性はあります。

事故の予防にも応用できる可能性があります。事故パターンに近い状況をドラレコが察知したら警告したりクルマを自動制御するなどして未然に事故を防止するような未来はあり得るでしょう。

防犯面でも役立ちそうです。ルパン三世など映像作品でよくある、レーザーセンサーで異常を検知したらアラート発報、という警戒の仕方だけでなく、映像を解析して「あやしい人が、あやしい動きをしている」を検知した段階でアラート発報できるようになるでしょう。


ドラマのあらすじ要約、伏線検知、台本チェックにも?

ちょっと変わった使い方では、ドラマの映像を読み込ませるとあらすじの要約文章を作ってくれたり、伏線を映像パターンから発見したり、その伏線が回収された時にどこが伏線だったのかを振り返って教えてくれたりする、ドラマ視聴の支援ツールも、技術的には可能そうです。

脚本や演出を考えるプロの人にとっては福音となるのか窮屈になるのか微妙なところですが…

三宅隆太さんに代表される、映画などの脚本を添削修正する仕事にもAIが進出(浸食?)するかもしれません。ただ、矛盾のないストーリーにしただけで面白くなるわけではありませんので、最低限の気持ち悪さをなくす程度ならさほどの影響はないでしょう。

CM映像も、商品の訴求力、炎上リスクの分析、競合他社のCMとの比較などを文章化して分析説明できるようになるだろうと思います。実際の購買データと突合することでAIの分析精度はどんどん高まるでしょう。

映像から文章を書き起こす、さらにこれをプロンプトに戻すというリバースエンジニアリングのようなことが生成AIでできるようになりそうな今回のNECのソリューションは、当初想定のドラレコ映像解析に留まらず、多くの映像の作られ方に大きな影響を与えそうです。

この記事が気に入ったらサポートをしてみませんか?