見出し画像

時間がかかる「文字起こし」を自動化したい…!(Google Cloud Speech APIを使った方法)

ライターをやっていると、どうしてもつきまとう「文字起こし」

技術を使ってどうにか出来ないものか!!!

と考え始めて。

だけど、Googleさんの公式ドキュメントを読み解くの、私には難しすぎる…😭
(参考:Cloud Speech-to-Text ドキュメント  |  Google Cloud

ということで、参考になりそうな記事を探しました👀


すごく分かりやすい記事を発見できたので、シェアします。順番に従って、この通りやれば、どんな人も出来るはず! やってみたい方は、以下ご参考になさってください。


手順に取り掛かる前に、あなたが欲しい文字起こしを本当にGoogle Cloud Speech APIが叶えてくれそうなのか?
簡単に、メリットとデメリットをまとめます。「そんなのいいから試してみたいぜ!」って方は、すっ飛ばして、【参考記事】Google Cloud Speech APIの導入にあたって からどうぞ💁‍♀️

Google Cloud Speech APIの文字起こしって?

🍎メリット

・変換時間としては、音源の長さの半分くらい
┗21分の長さの音源を6分半で変換してくれました
=>文字起こしにかかっていた時間を、執筆にあてられる+文字起こしで疲れなくてすむ。

・語り口調の綺麗な音源(ものにもよりますが)だと、精度が高い
┗たとえば、YouTubeに上がっているこの動画を実際に変換してみると、こんな感じで返ってきます。冒頭だけ載せます。(※表示の都合上、私が手作業で改行を加えています。実際の出力は、改行がないもの)

 [

"アプリストアに行く前にゲームウィズで探そうのゲームウィズの山田です今月もやってまいりました
新作アプリランキング最近リリースされたアプリゲームの中で注目度の高いおすすめゲームトップ5
小隊新しいゲームを探してる方にピッタリの内容となっております紹介したゲームが好きになった方
は動画の概要欄からゲームのレビュー記事をチェックしてみてください今回のランキングは2016年
2月から3月上旬までにリリースされた新作トートゲームウィズ一押しの切符を買い方+1の経路を紹介
していきます今月のランキング第5位メダルマスターズカジュアルなのに連絡出来ネクソンが送る会
夫婦 RPG プレイヤーは召喚主となりメダルに込められた英雄たちと共に魔王の率いる軍勢と戦って
行くバトルシステムは編成した英雄",
0.98472136

=>びっくりする良精度◎

🍏デメリット

・句読点や・改行なしの文章になる

・月間60分までは無料枠だけど、超過分は0.024$/分で有料

スクリーンショット 2020-03-14 13.23.35

引用:Cloud Speech-to-Text - 音声認識  |  Google Cloud

=>とはいえ、ドル円換算すると、1分3円かからない程度。

・話者の区別は、日本語だとできない(2020.3.14時点)
┗英語のみ対応しています。

スクリーンショット 2020-03-13 16.20.55

引用:音声録音内の異なる話者の分離  |  Cloud Speech-to-Text ドキュメント  |  Google Cloud

・今回の方法(Google cloud platformを使うやり方)だと、音源は全世界に公開される
┗取り扱い注意ですが、私が調べた限り、「Google cloud platformに精通してない人が簡単に検索する方法」は出てこなかったです。
URLをまず特定しなくてはいけないし、特定できたとしてGoogle Cloud Platform の利用登録画面にまず飛ばされるのでハードルはあるかな・・というところ🤔


【参考記事】Google Speech API を使って、文字起こしを自動化するまでの手順

まず、約束して欲しいのが、今回ご紹介する順番で読んで、順序どおり、おこなってください。
オンライン上で文字起こし→1分未満の文字起こし→1分以上の文字起こし、という手順で、一個ずつ出来るように目指しましょう。
(全記事を読んで俯瞰して、「オンライン上で文字起こし」だけにする もしくは「自分ではやらず、出来る誰かに頼る」のも全然アリだと思います)

1、「お試し〜導入〜1分未満の音源の文字起こし」がわかる! 『Google Speech API の使い方 日本語音声をテキストに変換してみよう | あぱーブログ』

Google Speech API の使い方 日本語音声をテキストに変換してみよう | あぱーブログ

0から教えてくれている、すごーーーーーく丁寧な記事。
「5秒で試せる Cloud Speech API」から、どうぞ取り組んでくださいね(⚠️下を読む前に、1の記事を一通り読んでください! クドイですがw)

1の記事を踏まえた上で、注意するポイントは2点。

1-1、音声ファイルの保存形式変換

変換するために、オンライン上で完結するこのサイトを私は利用しました。

Online Audio Converter - オーディオファイルの MP3, WAV, MP4, M4A, OGG または iPhone 着信音への変換

アップロードして、「詳細設定」のボタンを押して、以下の設定にして「変換」ボタン。

画像3

1-2、Google Cloud Shellを使う

>JSONリクエストファイル(sync-request.json)を作成します

非エンジニアの多くの人の手が止まる。それが、たぶんここです(どこに、何を、書けばいいのか? どこに保存するのか? どこは自分用に書き換える必要があって、どこは自由に書いていいのか? が分からなくなり、詰んでしまう問題・・)

Cloud Shellにこんな感じでファイル(▲▲.json ※ファイル名はなんでもいいです。自分で決めちゃって大丈夫)を保存して、下の黒いところにコマンドを打ち込みます。

画像4

【GCP入門編・第9回】 Cloud Shell で、いつでもどこでも Google Cloud Platform (GCP) が操作可能に! | 株式会社トップゲート

(上の記事を読むと呪文が多すぎて逃げたくなる人正直多いかも。リアルの友達は補助させていただくので、私に声かけてもらえるとです!🙋‍♀️)


ここまでやると、1分未満の文字起こしができるようになります🌟
※「ここまででもキッツイぜ」って方は、オンライン上で完結するこのページの利用まででいいかなって思います。
Cloud Speech-to-Text - 音声認識  |  Google Cloud

スクリーンショット 2020-03-14 14.40.53

2、1分以上の音源も変換する! 『Google Cloud Speech API を動かしてみた! - Qiita』

Google Cloud Speech API を動かしてみた! - Qiita

1を出来た上で読むと、理解しやすい記事。同期リクエストっていうのが1分以内のもので、ここでは『非同期リクエスト>APIキーVersion』の箇所を参考にすることで、1分以上の音源を変換できるようになりました。

ちなみに、この記事で変換しているのと同じYouTube動画をダウンロードして、音源のみに加工して〜ってやり方が個人的にはおすすめです。

ニュースの語り口調で、一人の方だけが話している発話であれば、かなり高い精度で文字起こしができることが分かりました

引用:Google Cloud Speech API を動かしてみた! - Qiita

を、ぜひ味わってみてください!
この感動、みんなと分かち合いたい〜〜〜🤲


==

Twitterでは、
本、漫画、ご飯とお酒。
ときどき、写真、pythonについて。呟く人です。

めぐ (@megblo_com) / Twitter


この記事が気に入ったらサポートをしてみませんか?