見出し画像

自動でTRPGセッションの文字起こしをしたいんじゃ

5/1 追記:Amazon TranscribeでJSON出力した際のスクショを追加。

何回かTRPGセッションをやった友人たちと、「リプレイ動画を作ってみよう」という話が持ち上がった。KPがセッションを録画してくれていたし、動画編集自体はaviutlとか使えばそんな苦じゃないだろう、と思って始めてみたものの、序盤から思わぬ弊害にぶち当たった。いや本当は予想していた、しかし簡単に解決できる問題だと思っていた。

そう、セッションの文字起こしである。

録画データは音声データに変換して、その上で文字に起こさないと字幕がつけられない。字幕は動画上でセッションの進行を理解するために不可欠で、字幕をつけるためには文字起こしをする必要がある。卒論のときにやったことがあるけど、音声の文字起こしって結構苦痛。できれば手打ちでやりたくないし自動化したい。そんなこんなでいろいろ試してみたので、メモを兼ねて残しておく。

最終的に辿り着いた方法のみ知りたい方は1をすっ飛ばして「2. 結局どうしたか」へどうぞ。


1. 何を試したか

Googleドキュメント+VBCABLE 結果:ダメ

Googleドキュメントエディタ(いわゆるWord)にはなんと音声入力の機能がある。スマートフォンでおなじみの音声認識技術を使って、マイクで喋ったことをそのままGoogleドキュメントに文字入力してくれるのだ。

https://support.google.com/docs/answer/4492226?hl=ja

ただ、TRPGリプレイの文字起こしは録音データを使うため、マイクではなく録音データから音声認識を起動させる必要があって、VBCABLEというソフトを使ってマイクの代わりにPCでで流れている音を音声認識させる必要があった。この辺りは以下のサイトを参考に試してみた。

https://puusenkou.com/voice-input-via-google

結果、「はっ!手入力なんてしなくてもGoogle様のテクノロジーがなんとかしてくれるんじゃい!!」と勇んでやってみたもののさっぱりうまくいかなかった。音声認識が途中で何度も止まってしまうのだ。恐らくGoogleドキュメントの音声認識は、マイクで一言ずつ吹き込んでいくためのものであって、TRPGのリプレイみたいに延々と何時間も喋り倒す音声を書き起こすことは想定されていなかった。音声を再生して後は放置、でいいと思っていたけど15分後にドキュメントを見てみたら4行くらいしか書き起こされていなかった。絶望した。

Live Transcribe 結果:まあまあ

これまたGoogleが提供するスマートフォンアプリで、Live Transcribeというのがある。本来聴覚障害を持った人たちなどに向けたアプリで、スマートフォンでこのアプリを立ち上げて置くだけで会話を文字に変換してくれるという優れものだ。パソコンで音声データを再生して、アプリを立ち上げたスマホをパソコンのスピーカーの前に置いて書き起こしてもらうというハイテクなのかローテクなのかわからない方法で試してみた。

https://play.google.com/store/apps/details?id=com.google.audio.hearing.visualization.accessibility.scribe&hl=ja&gl=US

こちらはGoogleドキュメントと違ってほぼ最初から最後まで書き起こしを続けてくれた。が、問題が二つ。第一に結構な割合で欠落している。本来はリアルタイムの会話場面で使用されることが想定されていて、そんなときはうまく認識されない音声があっても「もう一回言ってください」っていえばいいのであまり問題にならないのだろうが、セッションの書き起こしで欠落が多いとストーリーがまったくわからなくなる。第二に、これは当たり前と言えば当たり前なのだけど、リアルタイムの書き起こししかできないので15分のセッションなら書き起こしに15分かかるし、1時間のセッションなら1時間かかる。そこから欠落部分を補うためにまた音声を聴いて推敲…と考えるととてもじゃないがやっていられない。

2. 結局どうしたか

Amazon Transcribe 結果:かなり良い

Googleでダメならもうどこでもダメじゃん…万策尽きたわ、と思いながらも「音声認識 文字起こし 自動」みたいなワードで延々検索結果をスクロールしていたら、Amazon Transcribeというサービスを見つけた。

https://aws.amazon.com/jp/transcribe/

ああAWSか~。使ったことないんだよね、アカウントもないし。アレでしょ?エンジニアとかが使うやつでしょ?ハードル高そ~。

と思いつつもその後いろいろ調べてみると使えばかなり便利そう。でもどこの解説サイトもAWSアカウント持ってる前提で使い方説明してるしな~そこから教えてほしいんじゃ~。と思って辿り着いたのがここ。

https://miyukichi.com/archives/1324

AWSのアカウントの作り方から、S3ストレージ(AWS内のDropbox的なファイル保管サービス)の作り方、Amazon Transcribeの使用感までざっくり解説してくれているページがあった。こちらを参考にしつつ、アカウントを作ったあとは公式のチュートリアルも読んで進めてみた。

https://aws.amazon.com/jp/getting-started/hands-on/create-audio-transcript-transcribe

ほぼチュートリアルの通りで最後まで進めていけるけど、認識言語をEnglishじゃなくてJapaneseにするところと、Speaker identification (話者の識別)をオンにしてKP、PLの人数を登録する点があるところは注意。3人卓なら3人に設定することで、複数人の会話をそれぞれ識別してくれる。
ちなみにAmazon Transcribeは前者2つと違って有料サービスなんだけど、上の記事にもあるように60分音声の書き起こしが150円とのことだったのでまあそれくらいならいいかな、と思って登録してみたら、アカウント登録後最初の12ヶ月間は毎月60分の書き起こしまでは無料らしい。そんなことある??

しかも60分の音声データをアップロードしたら、約15分後には完了していた。卒論書くときに欲しかったわこれ。
そして書き起こされた結果のプレビューがこちら。SANチェックのシーンです。

画像1

キャラ名が認識されてないのと、「1減少」あたりが誤変換されている点を除けばほぼ完璧なのでは。喋ったメンバーもちゃんと識別されている。ただし、このプレビューでは5000文字までしか出力されず、全文が実際に出力されるファイルはJSON形式で単純な羅列になる。

画像2

なので結局整形作業(発話者を区切る、誤字脱字を修正する)は必要。ちなみにGoogleドキュメントとLive Transcribeでは、複数人が一斉にしゃべるダイスのシーンはほぼ認識されていなかった。

3. 結論

3通りの方法を試した中ではAmazon Transcribeが一番使えると思った。精度もなかなか良いが、何より完了までのスピードが魅力的。60分セッションをとりあえず起こすのに60分待たなくて良いのは最高。今後の課題としては、JSONファイルで出力されるので扱いにくい(できればプレビューの形式そのまんまで出してほしい。逆になぜそのまんま出さないのか)ところと、TRPG特有のキャラ名や固有名詞までは認識しきれていないところか。ただ後者の部分はユーザー辞書機能があって、独特の単語は予め登録しておくことで誤認識を減らせるらしい。今後こういった効率のいいサービスがどんどん活用されて、TRPG動画がたくさん出てくればいいなと思いました(小並)。

あとJSONファイルをうまいこと整形できる人と、上記以外のいい文字起こしの方法をご存じの人、ぜひご一報ください。






この記事が気に入ったらサポートをしてみませんか?