見出し画像

ML/AI理解への挑戦|勉強会メモ|20190521

Google(Google Cloud Platform)による、
エンターテインメント業界向けML(Machine Learning|機械学習)の勉強会に潜り込んできました。
(本来は、「IT担当」または「エンジニア(バックエンド)」「データエンジニア」などが対象)
(途中、「テレビ朝日」のインターネットTV担当者からの「機械学習」手法についての解説あり)
(また、「ビデオマーケット社」の動画配信プラットフォームの自社開発の事例紹介あり)

勉強会のポイントは、もはや特殊な技能や専門家が不要(「文系」「理系」の区分がナンセンス)で、AIを使いこなせる時代がきましたよ、ということです。
また、「機械学習モデル作成」=「大量のデータをよみこませて、分析モデルをつくる」ということ自体をGoogleが提供しています、と。

これ、「やれない理由」が (「やる気の問題以外) ほぼないので、「とっととやる会社」と「それ以外」が激しく分断しますね。
オフラインの「デジタルシフト」からの「機械学習/AI」へのシフトは、猛スピードで企業の2極の分断を起こすでしょう。
ヤバいですね。

以下が、すでに「Googleのクラウドサービス」で実現できるとのことです。

■Speach-to-Text 【 会話/セリフ音声の同時テキスト化】
 ・音声をテキストに変換できる
 ・Googleの機械学習技術により、リアルタイム配信の音声にも対応
 ・120言語(方言)に対応
【実現できること】
 >>同時通訳字幕が自動で実装(海外コンテンツも言語の壁なく日本国内展開できる)
 >>同時通訳と同時にテキストデータ化(メタ情報化)
 >>セリフの一部での「番組検索」「編集ポイントの設定」ができる

■Translation API
 ・翻訳のAPI
 ・数千の言語の組み合わせにも対応
 ・「翻訳サービス」とプログラムとして統合できる
【実現できること】
 >>自社のパブリシティリリース、ウェブページの自動翻訳でデジタルコンテンツ化
 >>海外の番組情報、エンタメニュースの自動翻訳によりニュースコンテンツの作成

■Video Intelligence
 ・動画に、自動で「注釈/テキスト情報(annotation)」を付加することができる
 ・動画からメタデータ(情報)を抽出することで、動画が内容で検索できる
 ・動画の主要な「名詞」を識別し、それが動画内に出現するタイミングを特定できる
 ・あるキーワードが登場するのは何秒時点かが情報化できる
【実現できること】
 >>動画の「アノテーション(注釈/テキスト情報)」のタグ付けを自動化(番組タグが豊富に)
 >>動画の「みどころ」「主要キャスト」「#タグ」などがテキスト化(番組情報のリッチ化)
 >>動画内のあるキーワード(セリフや場面)が登場するのは何秒時点かの情報化(見どころに)
 >>ユーザーの「なんとなくキーワード」の検索への対応が広がる
 >>動画を短尺に編集する際の「編集ポイント」の自動検出

■Vision API
 ・画像の内容を認識を可能にする(アプリを開発できる)
 ・画像の分類、個々の物体や顔の検出、画像内に含まれるテキストを検出し読み取りができる
 ・「機械学習モデル」自体をGoogleが提供している(ただしカスタマイズ不可)
 ・Googleがすでに「画像認識×検出」のモデルを蓄積し提供している
 ・カスタマイズしたい場合は、各自で「教師データ」を読み込ませ学習させる必要あり
【実現できること】
 >>映っているものから画像の分類を自動化(分類クラスタ数は任意で設定、異常の検知も)
 >>検出したい画像(に映っているもの)を学習させ、以降自動検出し「#タグ付け」
 >>例えば「顔」で俳優/タレントを自動検出し並べる、など
 >>「建物」や「食べ物」「場所」なども自動検出できる(最初の設定次第)
 >>「場面写真」や「バックステージ写真」をファイルに入れれば、自動で(評価に従い)「選出」される
 >>例えば「映っている人数」「明るさ/暗さ」「人物の顔の大きさ(解像度)」などで抽出する、など

上記は、すでに海外ですと「CBS」「スカイ」「Spotify」「 NewYorkTimes」では取り組んでいること。
いち早く取り組んでいると「機械学習の解像度/緻密さが進み」マーケティングでも「先行」できる、と。

なんか、「できたらいいなー」が「いや、もう出来てますけど」のスピード・サイクルが早すぎて笑える。

マルチで時空を往ったり来たりしても負けない体力、重要。

この記事が気に入ったらサポートをしてみませんか?