音声認識で文字化を簡単に行おう！

*nao*

2017年11月12日 03:22

1.イントロダクション

最近は、音声認識が手軽に出来るようになりました。
議事録や文字起こしも、これらを使えば簡単にできます。

また、インターネットラジオも個人で運用できるようになり、
LINEライブやTwitCastみたいな配信系も増えました。

そういうエンタテインメントをやり始めると、
次に課題になるのは「みんなに伝えたい！」ってところ。

まぁ、それなら…　音声で伝えられない環境が問題ならば
それを乗り越えられる道具をつかえばいい！というわけです。

道具はもうそろっていますが　案外とっかかりがないと
やりづらいんだわ！って声もよく聞くので、
取り掛かり方をちょっと書いてみましょう。

2.音声を文字に直すには

音声を文字に直す技術は、巷で「音声認識」と呼ばれています。
携帯電話によくついている、あれです。

「OK! Google」とか「Hey! Siri」とかいうやつ。

今回は、長い発話・会話につよい音声認識エンジンである
「AmiVoice® Cloud」をつかってみましょう。

このエンジンをつかうためには、これを採用しているアプリを
導入するのが一番手っ取り早い話になります。

市販されていて、すぐ手に入れられる…という条件なら
「ＵＤトーク®」というものが最適です。

Apple製品なら AppStore から、Android系ならPlayStoreにあります。
まずはこれをダウンロードしましょう。

3.編集用アプリ

それから、編集用アプリ。
UDトーク®公式編集アプリもありますが、今回は高機能編集アプリの
「まあちゃん2017」を用います。

ダウンロードはここからできます。(Windows版のみ)
http://caption-sign.jp/?page_id=164

Mac OSXをご利用の方は、Bootcampで上記アプリを使うか、
ＵＤトーク®公式アプリをつかいましょう。

ダウンロードしたら、ファイルを実行してインストールします。

もし「ブロックされた」と表示されたら、
詳細表示をおして、実行を押しましょう。

（これは回避できるようにしたいのですが　年間5万ぐらいかかるので
　実質無料で提供しているソフトではコストが捻出できないのです。
　すみません。企業採用やカンパで予算ができれば、対応します。）

4.トークルームを作る

まずは音声認識できる環境をつくります。
携帯電話でＵＤトーク®を起動します。

この画面がでたら、「今すぐトークを公開する」を押します。

そうすると、ＱＲコードが表示されます。
上のボタンにある「招待」をおします。

この画面がでたら、ひとまず携帯は置いておきます。

5.パソコン側をつなぐ

まあちゃんを起動します。

まずは、ＵＤトーク®とつなぐ設定をします。

通信→ＵＤトーク®を選べば、設定を完了できます。

この時、インターネットにつながっていれば、
ユーザーＩＤが表示されます。

このユーザーＩＤを、先ほどの携帯にうちこみます。

このあと、招待をおしましょう。

接続先(講習会）が出てきますので、ダブルクリックして
接続しましょう。

これで、入力準備が完了しました。

5.音声を入れる準備をする

ＵＤトーク®で音声認識をするためには、
音声トークスイッチを押して、話しかけるだけです。

しかしながら、音声認識はノイズや音の強弱などによって
認識の正確さにかなりの差が出ます。

できれば、マイクを使って、マイク～口元間の距離を
なるべく一定にして話しましょう。

マイクをつなげるためには、マイク接続用の変換ケーブルや
変換機材（iRig2)を使う方法があります。

安定して使うという意味では、iRig2での実績が多くありますので
これをお勧めしています。（Amazonや楽器屋で入手できます)

なお、最近のあたらしいiPhoneでは、Φ3.5のイヤホン端子がないので、
イヤホン用変換端子などを使うといいです。
（Apple公式アクセサリとして販売されてます。 )

iRig2のつなぎ方はＵＤトークマニュアルをみると、よくわかります。

マイク出力は、音声認識している間だけ出力されます。
パソコンなどで配信する場合には、この出力を音声入力につないで、
ボリュームは携帯端末の音量ＳＷで調整する、といった感じで使います。

マイクを設置するのも…という感じのかたなら、
iRig Lavというピンマイクも販売されています。

この場合は、iRig Lavの出力端子を直接携帯端末にさして、
iRig Lavについているイヤホン端子をＰＣの入力に差す、という感じで
動画配信機器に音声を取り込むことができます。

6.実際に配信する

あとは、音声認識開始ＳＷ（携帯端末の下側にある赤いボタン）を
押して、話すだけです。

もし、このときの認識状況をインターネット越しに共有するなら、
iPhoneにVGA(もしくはHDMI)変換コネクタを指して、
画像配信先に取り込むか、視聴者が見える閲覧先アドレスを
配布する方法で実現できます。

このQRコードを配るか、メールで送信（もしくはコピー）で得られる
URLを視聴者に配りましょう。

相手がそのアドレスを利用してＵＤトーク®を起動すれば、
この画面がしっかり共有されます。

★このとき、下の選択肢は「閲覧のみ」を選びましょう。
　そうしないと、見ている人が文章を書き換えたり、
　文章をけしたりすることができてしまいます。

そうそう、大事なポイントが１つありました。
無料版では、認識に使った音声は音声認識精度のレベルアップに使われます。セキュリティとしては厳重に管理されますが、内容的に音声認識会社に
わたること自体問題となる場合は、法人契約やコンパクトプランといった
「音声を破棄するプラン」を活用しましょう。

また、完全無料版は一定時間で、音声認識が止まり、再度音声認識ボタンを
押していく必要があります。これを解除するためのアドインがあるので、
必要な人はこれを購入すれば、何時間でも連続認識が可能となります。

7.間違いを直す

もし、音声認識中に間違いがあったら、まずはマウスで
その行を押してみましょう。

そうすると、編集ができるモードに移行します。
編集中という水色の表示と共に書き換えができるようになるので、
間違っている所(例では錦→認識）に書き直します。

編集がおわったら、エンターキーを押しましょう。

これで、携帯端末のほうも修正されます。
(同時に、視聴者側の画面も変わります）

ちなみに、原稿に文章をいれて、カーソルを合わせ、
Ｆ１キーをおすとその行を送信することができます。

配信タイトルとか入れておくと楽ですよ。

8.要するに…

・事前に集める道具は、ＰＣ、携帯端末、マイクをつなぐ道具、マイク。
周辺機器は配信機材や構成によって変わる。

・ソフトをいれたら、招待して、編集ＰＣと携帯端末をつなぐ。

・字幕を配信したければ、画面を取り込むか、接続用ＵＲＬを配る。

・タップして話し、間違いはＰＣでさっと直す。

9.最後に

図解するとなんだかたくさんあるように見えますが、
なれれば5分以内に準備ができてしまいます。

この構成は色んなことに応用できるので、ぜひ活用してみてください。

開発したり研究したりするのに時間と費用がとてもかかるので、頂いたお気持ちはその費用に補填させていただきます。