アートボード

Googleの最新文字起こしアプリを使ってYouTubeの配信にリアルタイムで高精度の字幕を表示させる

こんにちみんみん!バーチャル幼女プログラマーのきりみんちゃんです!
今日は配信にリアルタイムで字幕を表示させるのを試してみた知見について紹介したいとおもうよ!

概要

実際に直近の配信で字幕を試しています。

【ゲーム実況】きりみんちゃんと学ぶPCパーツとPC自作の基礎【PC Building Simulator】【アーカイブ】【VTuber】#きりみんちゃんねる

アーカイブは長いので以下に切り抜きも貼っておきます。

右下に表示しているのが今回紹介する字幕です。
この方法で字幕を表示させる特徴としては「高速」「高精度」「オフライン」というのがあります。
実際に上記の配信ではほぼラグなしで8割くらいの精度が実現出来ています。

どうやってるの

Googleが最近リリースしたLive Transcribe(音声文字変換)というAndroidアプリを利用しています。

このアプリは今年の2月にβ版としてリリースされたばかりのアプリで、Android5.0以上で使用することができます。

このアプリに使われている技術は今年のGoogle I/O(Googleの技術発表会)の基調講演でも紹介されたもので、サーバーに接続することなくオフラインのモバイルデバイス上で高速に機械学習の処理を行い文字起こしを実現しています。

このアプリは現在Android向けにしか提供されていないのですが、今回の手法では手元のAndroidデバイス上でこのアプリを起動し、その画面をWindowsに取り込みOBSに表示させるという方法を取りました。

Androidデバイスの画面をWindows上にキャプチャするのにはScrcpyというアプリケーションを利用してみました。

このアプリケーションはGenyMotionというかつてAndroid開発者の間でデファクトスタンダードとなっていたサードパーティのAndroidエミュレータアプリケーションを開発していた会社なので、それなりに信用は出来るんじゃないかなという気がしています。
Wi-FiでAndroidデバイスをPCに接続する技術自体はAndroidSDKに標準で提供されているデバッグ機能なので、root化なども特に必要ありません。

難点とやりたいこと

難点はアプリの背景が白か黒なのでクロマキーでキレイに文字だけを抜き取るのがむずかしいという点です。

また、この方法では文字起こしされたテキストを(楽に)データとして保存することが出来ないため、文字起こしされた内容をそのまま公開したりするのがむずかしいです。

きりみんちゃんは今後配信で喋った内容のデータを全て蓄積し、解析することで喋った内容と配信の盛り上がりの相関を見たり出来たらおもしろいなーと思っているので、そういう事がやりたければ素直にGoogle Speech APIを使う方がよい気がしています。

まとめ

動画に字幕が付いているとミュートでも内容が分かるし、初見でのインパクトが強くなるなど色々メリットがあると思うので、試してみるとおもしろいかもしれません。

以上、きりみんちゃんでした!

この記事が気に入ったらサポートをしてみませんか?