見出し画像

Web上で完結。Whisperを使って文字起こし

 日本人の平均読書速度は、1分間に400~600文字程度と言われている。実際自分の読書スピードを測ってみると,693文字/分とややゆっくりめと言われた。(読書速度ハカルくん)
 ゆっくりめにしても,通常の音声読み上げのスピードは1分間300文字ペースで,早く情報を把握したい時は読むのほうが効率的と考える。
 仕事上でも,プレゼントやインタビューを振り返れるようなバックアップや,議事録など,文字に落とす時もあるが,いちいち音声Pauseをして書き下ろすのも実際話す数倍の時間がかかってしまう。仕事効率化できるAIの腕見どころだ。
 コーディングなど一切わからずでも,Web上に完結でき,無料かつ精度高めの文字起こしのStep-by-Stepを書き留める。

準備材料:
 1.起こしたい音声(mp3)
 2.Googleアカウント(Colaboratoryを利用する)


それでは,
 1.Colaboratoryを開いて,ファイル>ノートブックを新規作成
 2.一行目に以下を入れて実行(OpenAIの文字起こしAI「Whisper」を入れる)

!pip install git+https://github.com/openai/whisper.git

 3.音声ファイルをアップロード

ファイル名に漢字やカナがあるとエラーを吐く場合があるので,
英数文字列でファイルをリネームしてアップロード

 4.2行目に以下を入れる。ファイルパスの部分(/content/001.mp3)は実際アップしたファイルパスに書き換えて実行。

import whisper
model = whisper.load_model("large", device='cpu')
result = model.transcribe("/content/001.mp3", verbose=True, language='ja')
text = result['text']
print(text)

 5.あとはテキストの吐き出しを待つだけ^^


実用マニュアルは以上で終わる。
簡単すぎて書かれるステップがほぼない。以下は検証してみる。

検証:
 1.適当の記事を選んで,今回はこの記事を使う(文字数: 670文字)

 2.自動読み上げツールの「音読さん」にテキストを入れて,Audio化する。

 3.上記のステップでWhisperに起こしてもらう。

PCのスペックのせいか,かなり時間かかった。
起こしてもらえる間に放置して別のことをやりましょう

 4.結果のテキストはこちら

[00:00.000 --> 00:12.060] 台風情報東海道新幹線は東京名古屋駅間で本日の運転取りやめ 在来線は今後さらなる運休の可能性も空の便にも影響高がる
[00:12.060 --> 00:24.460] 本文大雨の影響で鉄道や空の便に大きな影響が出ています jr東海によりますと東海道新幹線は沿線で激しい雨が降り続いているため
[00:24.460 --> 00:35.060] 東京名古屋駅間の上下線で本日の運転を取りやめるということです 名古屋新大阪駅間については臨時列車を運行しています
[00:35.060 --> 00:46.860] また jr東日本では大目線の大目奥多摩駅間の上下線で運転を見合わせていましたが 午後8時50分頃に運転を再開しました
[00:46.860 --> 00:56.440] また千葉県の内防線でも佐抜町武雄会期間の上下線で運転を見合わせていて 再開の見込みは経っていません
[00:56.440 --> 01:08.440] また東急電鉄でも東横線と田園都市線と大井町線の一部の列車が運休しています 他の路線についても今後遅れや運休が発生する可能性があるため
[01:08.440 --> 01:18.520] 鉄道各社は最新の気象情報と運行情報をチェックするよう呼びかけています 明日の運休がすでに決まっている路線もあります
[01:18.520 --> 01:27.440] jr東日本では明日の始発から夕方頃にかけて内防線 外防線総武本線成田線鹿島線くるり線
[01:27.440 --> 01:35.440] これらの一部区間で運転を取りやめることをすでに決めました 空の便にも影響が広がっています
[01:35.440 --> 01:48.640] 日本航空は午後8時時点で羽田空港や那覇空港を発着する便など合わせて126便の 欠航が決まっていておよそ1万100人に影響が出ているということです
[01:48.640 --> 02:00.320] また全日空は午後7時半時点で合わせて77便の欠航が決まっていて およそ6150人に影響が出ているということです 台風情報東海道新幹線は東京名古屋駅間で本日の運転取りやめ 在来線は今後さらなる運休の可能性も空の便にも影響高がる本文大雨の影響で鉄道や空の便に大きな影響が出ています jr東海によりますと東海道新幹線は沿線で激しい雨が降り続いているため東京名古屋駅間の上下線で本日の運転を取りやめるということです 名古屋新大阪駅間については臨時列車を運行していますまた jr東日本では大目線の大目奥多摩駅間の上下線で運転を見合わせていましたが 午後8時50分頃に運転を再開しましたまた千葉県の内防線でも佐抜町武雄会期間の上下線で運転を見合わせていて 再開の見込みは経っていませんまた東急電鉄でも東横線と田園都市線と大井町線の一部の列車が運休しています 他の路線についても今後遅れや運休が発生する可能性があるため鉄道各社は最新の気象情報と運行情報をチェックするよう呼びかけています 明日の運休がすでに決まっている路線もありますjr東日本では明日の始発から夕方頃にかけて内防線 外防線総武本線成田線鹿島線くるり線これらの一部区間で運転を取りやめることをすでに決めました 空の便にも影響が広がっています日本航空は午後8時時点で羽田空港や那覇空港を発着する便など合わせて126便の 欠航が決まっていておよそ1万100人に影響が出ているということですまた全日空は午後7時半時点で合わせて77便の欠航が決まっていて およそ6150人に影響が出ているということです


この記事が気に入ったらサポートをしてみませんか?