見出し画像

【PR/文章術】文字起こし自動化を求めて20年。ついに夢が叶うのか。

インタビューが大好きです。
しかし、文字起こしが大嫌いです。

前回は見逃してはいけない情報収集の全自動化について書きましたが、今回は文字起こしの全自動化についてお届けします。
自動化大好き。

結論としては、100%ではないものの、めちゃめちゃ夢と希望がある結果を得て大感動でした。
長いので、結果を見たい!という方は「【実践】iPhone音声入力 vs. Google音声文字変換」からお読みください。

自動文字起こし歴20年の歴史(ざっくり)

物書きの夢、それは自動文字起こし。
最初のチャレンジは中・高校生時代。20年前にもなりますでしょうか。
PC用ソフト「ドラゴンスピーチ」や、IBM社の「ViaVoice」を買って試したがダメダメで。

約6万円を無駄にしてしまったので、その後は無料でできる範囲で試していました。

Windows音声認識はダメ、Mac音声認識もいまいち。
最近だと、Googleドキュメントの音声認識は連続での音声認識ができず、120分で約300円という破格の金額で自動文字起こしができると話題になった「Amazon Transcribe」の日本語は壊滅的で。
App Storeでダウンロードできるアプリも大抵試したけど無理!

結局、インタビュー内容を聞きながらiPhoneに話しかける or 「おこしやす」という往年の定番フリーソフトを使い自分で起こすの二択が長いこと続いていました。

日本語の自動音声認識が難しい理由

冷静に考えると、日本語って本当に難しいんですよね。

・同音異義語が多数ある(橋、箸、端などなど)
・漢字変換が難しい
・文法が自由(主語をはじめ、いろいろ端折る)

前後の会話やイントネーションから脳内で勝手に理解しなければいけない、難易度が格段に高い言語なんだと思います。

事実、英語の文字起こしは「Otter」で十分。
App Storeのレビュー708件で4.8点という高さからも分かる通り、高精度な文字起こしができます。月額9.99ドルですが、この精度なら全然安い。

ちなみに、今年中には日本語版「Otter」ができるらしいという報道があります。しかし、文字起こしの精度に何度も何度も何度も何度も裏切られてる私は、期待しながらも、どこか信じきれないでいるのが正直なところ。
日本語は本当に難しい。

すでに登場していた「神」技術と遭遇

そんなときに見つけたのが、2020年5月14日に投稿された落合陽一さんの動画。動画に字幕を、リアルタイムで表示させる方法です。
まずは動画をご覧ください。

その数日後に投稿された、無料のツールだけでリアルタイムで動画に字幕をつける、こちらの動画にも大感動!

Gogole 音声文字変換」、神すぎやしませんか!!!!
認識速度は早いし、漢字変換の精度も高いし……!

思い出した。
2019年前半に発表され話題になったものの、私の持っているAndroid端末には対応していなかったので、悔しくて悔しくて自動的に脳内消去していたんだ、、
しかし、今やAndroid OS 5.0以上なら動くゆる仕様になっていました。
私は5年前に知人から頂いた、当時約12,000円のMi Phone(Mi-4c/2015年9月発売)を使ってますが、問題なく動作しています。

【実践】iPhone音声入力 vs. Google音声文字変換

さて、上記の2つの動画は、配信用に話したのだと思うんです。
実際のインタビューでは、伝えたいことが溢れて言葉数が多くなったり、口早になったり、対談の場合は複数の声が混ざったりする上に、一時間以上に及ぶこともザラです。
今回は、以下3つを満たす音声で実験してみました。

・2人以上が話している
・熱めに、早めに話している
・会話が途切れない


そんな環境に適した動画がnote公式のYouTubeチャンネルにあったので、引用させていただきました。
ちなみにこの動画、「#noteのつづけ方2」というタイトルですが、文章力を上げるため、おもしろい文章を書くための超実践的な動画です。

そして私は、岸田奈美さんの文章が大好きです。
しかし、それ以上に、文章の書き方についての考え方が大大大好きで。岸田さんの文章術本の出版を心待ちにしています(加藤ハイネさんも好きです)(すみません脱線しました)。

普通に検証しても面白くないので、普段文字起こしで使っているiPhone Xの音声入力と、Mi PhoneにインストールしたGoogle「音声文字変換」を比べてみました。PCでYouTubeを再生するという雑環境です。

文字だとわかりにくいので、動画でどうぞ。

さまざまな見解があるかと思いますが、自動文字起こしを20年ほど見守ってきた人間としては、「Google音声文字変換」にめちゃめちゃ感動しました!!

拾わない文字列もあります、漢字変換ミスもあります。
しかし、こんなにもリアルタイムで処理し、漢字変換の精度も高く、「咳」や「音楽」などのノイズも自動認識機能もあり。いやすごいですわ。

iPhoneについては、1分前後でばっさり音声入力機能が止まってしまうので、文字起こしには不向きです。
基本音声入力用で、こんな使われ方をされる前提で作られてないと思うので当然っちゃ当然。比較して申し訳ない。漢字変換の精度はiPhoneのほうが高いシーンも多かったので、長文対応に期待したいところです。

 以下、認識後の文字列です。

・Googleの音声文字変換
応援される文章を書くとかってばまずコンペは応援されるって言う事が一つですよね上演される場所ってどうやって書けばいいんだってなった時に磨いていくわけなんですけどめっちゃ取ってくださいありがとうございますただただ何で村で面白いこと書けばいいって訳じゃなく他都市3ステップあると思ってこんなとこのステップにいるかっての大事だと思うよステップワンダー言葉文法のミスがあるって言うと申し訳ないけどこのことかと聞いてますがまだ全然足りてないそれこそあの新入社員で入ってきてビジネス文書書いたことがないとかプロが書いたことないそもそも主語述語がおかしくて通じないっていう人これはまず自分で書き続ける書いて誰かにフィードバックをもらい続けられるって言う事しないといけない方々これは会社の右側ではなくてことですよねはんや技術よりも変えればどのが大事だっていうのがあり万哲さんと言うと国語だと思っていて手術が必要なステップ数までするからみんななくこの技術を磨こうっていうになるんですけどもステップとで一旦技術は置いといてステップすり替わったけども行きましょうこの完成度のパーセンテージなんか100にするようにやれば大丈夫に入っていいんだけど日本じゃなこれが20%完成してない人が多いのかもしれないんで圧倒的につまずいてる人が多いた割合的には合ってるんだけど相手の読む人のことを考えてないっていうとが圧倒的に多いなってそれはステップ数ができてないのに何故か皆さんから面白いを書こうとするので何か伝わらないではなくめっちゃながながしが書いてて最後まで読めないとかっていうの持ってくるんじゃないかなって思いましたそうですねこれは文章 送ってより何画前の段階なんですけど。
・Apple音声入力の認識
応援される文章書くとかってまず今平和応援されるっていうことが1つですよねーってどうやって書けばいいんだってなったときに江頭文章を磨いていくわけなんですけどおおめっちゃとってくださりありがとうございますあのただただ10,000手ぶらで面白いこと書けば良いだけじゃなくて星振り捨てパールと思っていても自分のとこのステップに居る家庭を大事だと思うでしょstepワンの言葉文法のミスがあるって言うと申し訳ないけど9日の技術がまだ全然足りてないそれこそあの新入社員で入ってきてビジネス文章書いたことがないとかブログ書いたことがそもそも仕事述語がおかしくて通じないって言う人これはまず自分で書き続ける会で誰かにフィードバックをもらい続けて部署になれるって言うことをしないといけない方々これはだから最初の右側ではなくってってことですよねはい必要なステップツーまでするからみんなこの技術を磨コーティングになるんですけどもステップスリーと技術は置いといてして薬買うけどいきましょうってこの完成度のパーセンテージそうですここはなんか昔にするよりはここは多分80位あれば大丈夫に行っていいんだけど日本中残りの20%が完成してないと嘘ですすごいのかもしれないってステップツーで圧倒的につまずいている人が多いなったり思います伝わりづらいって文章的には合ってるんだけど相手の4人のことを考えてないって人が圧倒的に多いのってそれをスポーツができてないのに何故か皆さんstepワンから面白い文章書こうとするのでまた伝わらないどの道流流祝会とか最後まで読めないとかって言うのが起きてくるんじゃないかなって思います。どうしてこんな朝ですねこれは文章力ってよりあの角前の段階なんですけど

【実践】120分で約300円! Amazonの自動文字起こしでも試してみた

文字起こしを企業に依頼すると、精度や校正の有無にもよりますが、1時間6,000円から2万円程度します。が、「Amazon Transcribe」だと120分で約300円! 破格の黒船襲来に胸を踊らせた方々も多かったかと思います。

しかし、リリース当初に試した際は全然だめでした。今回、久しぶりの再チャレンジです。

・Amazon Transcribeの音声認識
 応援 さ れる 文章 を 書く と か って ま まず じゃ 根底 は 応援 さ れる って いう こと が 一 つ です よ ね じゃ 応援 さ れる 文書 って どう やっ て 書け ば いい だ って なっ た 時 に えーっと 文章 を 描い て いく 訳 な ん です けど めっちゃ 取っ て くださる ありがとう ござい ます あの ただ ただ なんて ブラ で 面白い 文章 書け ば いい って わけ じゃ なく て あたし スリー ステップ ある と 思っ て い て また 自分 の とこ の ステップ に いる か って いう の は 大事 だ と 思う です よ ステップ は まだ 言葉 文法 の ミス が ある っていう ひと えーっと 申し訳 ない です けど この 方々 は 技術 が まだ 全然 足り て ない え ソレ こそ あのー 新入 社員 で 入っ て き て ビジネス 文書 を 書い た こと が ない と か ブログ 書い た こと ない そもそも 主語 述語 が おかしく て 通じ ない って 言う 人 で これ は まず 自分 で 書き 続ける かい て 誰 か に フィードバック を もらい 続け て 文章 に 慣れる って いう こと を し ない と いけ ない 方々 これ は だ から 最初 の 右側 で は なく て って こと です よ ね その 技術 より も 高い ごと の が 大事 だ って いう の が あり つつ あり 徹 さん 右 と か 全然 伝わら ない レベル の ブドウ だ と ダメ だ と 思う ん です よ ね で この 技術 って 何 か って いう と 国語 だ と? 思っ て い て 技術 が 必要 な の は ステップ ツー まで で ステップ ツー から みんな 何 か この 技術 を 身 学校 って いう 風 に なる ん です けど も ステップ ツー で いったん 技術 は 置い とい て ステップ スリー から は 文献 の 方 行き ます よ って いう か この 完成 度 の パーセンテージ かも しれ ない そう です ここ なんか 百 に する よう に は ここ が 多分 だっ たら 八 十 ぐらい あれ ば 大丈夫 に 行っ て いい ん だ けど 日本人 は 残り の 二 十 パーセント が 完成 し て ない よう な 人 が 多い の かも しれ ない ステップ で 圧倒的 に つま づい てる 人 が 多い と 思い ます 伝わり づらい 文章 的 に は 合っ てる ん だ けど 相手 の 読む 人 の こと を 考え て ない って いう 人 が 圧倒的 に 多い な って 思い ます ソレ を ステップ ツー が でき て ない のに なぜ か 皆さん ステップ ワン から 面白い 文章 を 過去 と する ので なんか 伝わら ない とか なんか めっちゃ 長々 しく 書い て て 最後 まで 読め ない と か って いう の が 起き て くる ん じゃ ない か な? って 思い ます ね 

あれ、当初よりも精度上がってるかも……!
あれ、Googleよりもなんか精度いい……?
あれ、え…………? (Amazonさん、壊滅的なんて言ってごめんなさい……)

いやでも、岸田奈美さんと徳力基彦さんの話し方が聞き取りやすかった説もある。うん。

総括

・「Google音声文字変換」すごい。実用レベルに大きく近づいている。
・次回は1時間フルで耐えられるか試してみる予定。またnoteでご報告します。
・iPhone音声入力は1分で止まるので不向き。
「Amazon Transcribe」も精度上がってる気がする。
・日本語版「Otter」が出たら即試す。
・20年ぶりに、「ドラゴンスピーチ」がどう変化しているのかも検証したくなった。

それに加えて、今後は「自動音声認識されやすいしゃべり方」みたいなスキルが求められたりするのかもしれないな、なんて思ったりしました。
動画のリアルタイム字幕がマストになってくる時代も近いと思いますし。

ご意見、ご感想、俺の文字起こし技術を見ろ!等ありましたら、TwitterのDMでぜひ。

しかし、GAFA(Google、Apple、Facebook、Amazon)のうち3社が、自動文字起こしシステムを一般向けに提供していると考えると胸アツですね。
自動文字起こしの未来は明るい。

【追記】2020年9月22日
大本命、見つけました