ML/AI理解への挑戦｜勉強会メモ｜20190521

2019年5月22日 12:16

Google（Google Cloud Platform）による、
エンターテインメント業界向けML（Machine Learning｜機械学習）の勉強会に潜り込んできました。
（本来は、「IT担当」または「エンジニア（バックエンド）」「データエンジニア」などが対象）
（途中、「テレビ朝日」のインターネットTV担当者からの「機械学習」手法についての解説あり）
（また、「ビデオマーケット社」の動画配信プラットフォームの自社開発の事例紹介あり）

勉強会のポイントは、もはや特殊な技能や専門家が不要（「文系」「理系」の区分がナンセンス）で、AIを使いこなせる時代がきましたよ、ということです。
また、「機械学習モデル作成」＝「大量のデータをよみこませて、分析モデルをつくる」ということ自体をGoogleが提供しています、と。

これ、「やれない理由」が（「やる気の問題以外）ほぼないので、「とっととやる会社」と「それ以外」が激しく分断しますね。
オフラインの「デジタルシフト」からの「機械学習/AI」へのシフトは、猛スピードで企業の2極の分断を起こすでしょう。
ヤバいですね。

以下が、すでに「Googleのクラウドサービス」で実現できるとのことです。

■Speach-to-Text 【会話/セリフ音声の同時テキスト化】
　・音声をテキストに変換できる
　・Googleの機械学習技術により、リアルタイム配信の音声にも対応
　・120言語（方言）に対応
【実現できること】
　＞＞同時通訳字幕が自動で実装（海外コンテンツも言語の壁なく日本国内展開できる）
　＞＞同時通訳と同時にテキストデータ化（メタ情報化）
　＞＞セリフの一部での「番組検索」「編集ポイントの設定」ができる

■Translation API
　・翻訳のAPI
　・数千の言語の組み合わせにも対応
　・「翻訳サービス」とプログラムとして統合できる
【実現できること】
　＞＞自社のパブリシティリリース、ウェブページの自動翻訳でデジタルコンテンツ化
　＞＞海外の番組情報、エンタメニュースの自動翻訳によりニュースコンテンツの作成

■Video Intelligence
　・動画に、自動で「注釈/テキスト情報（annotation）」を付加することができる
　・動画からメタデータ（情報）を抽出することで、動画が内容で検索できる
　・動画の主要な「名詞」を識別し、それが動画内に出現するタイミングを特定できる
　・あるキーワードが登場するのは何秒時点かが情報化できる
【実現できること】
　＞＞動画の「アノテーション（注釈/テキスト情報）」のタグ付けを自動化（番組タグが豊富に）
　＞＞動画の「みどころ」「主要キャスト」「#タグ」などがテキスト化（番組情報のリッチ化）
　＞＞動画内のあるキーワード（セリフや場面）が登場するのは何秒時点かの情報化（見どころに）
　＞＞ユーザーの「なんとなくキーワード」の検索への対応が広がる
　＞＞動画を短尺に編集する際の「編集ポイント」の自動検出

■Vision API
　・画像の内容を認識を可能にする（アプリを開発できる）
　・画像の分類、個々の物体や顔の検出、画像内に含まれるテキストを検出し読み取りができる
　・「機械学習モデル」自体をGoogleが提供している（ただしカスタマイズ不可）
　・Googleがすでに「画像認識×検出」のモデルを蓄積し提供している
　・カスタマイズしたい場合は、各自で「教師データ」を読み込ませ学習させる必要あり
【実現できること】
　＞＞映っているものから画像の分類を自動化（分類クラスタ数は任意で設定、異常の検知も）
　＞＞検出したい画像（に映っているもの）を学習させ、以降自動検出し「#タグ付け」
　＞＞例えば「顔」で俳優/タレントを自動検出し並べる、など
　＞＞「建物」や「食べ物」「場所」なども自動検出できる（最初の設定次第）
　＞＞「場面写真」や「バックステージ写真」をファイルに入れれば、自動で（評価に従い）「選出」される
　＞＞例えば「映っている人数」「明るさ/暗さ」「人物の顔の大きさ（解像度）」などで抽出する、など

上記は、すでに海外ですと「CBS」「スカイ」「Spotify」「 NewYorkTimes」では取り組んでいること。
いち早く取り組んでいると「機械学習の解像度/緻密さが進み」マーケティングでも「先行」できる、と。

なんか、「できたらいいなー」が「いや、もう出来てますけど」のスピード・サイクルが早すぎて笑える。

マルチで時空を往ったり来たりしても負けない体力、重要。

この記事が気に入ったらサポートをしてみませんか？