Whisperの世界一簡単な始め方

2022年10月15日 18:21

OpenAIからとんでもない音声認識モデル出ました

最新のAIテクノロジーをこれでもかとオープンにしていってるOpenAIから音声認識モデルでとんでもないやつが来ました。
その名もwhisper

この記事ではwhisperをちょっと試してみたいなという人に簡単なセットアップ方法を解説していきます。

whisperを動かす環境

普通にローカルマシンでもいいですが、ちょっと試すぐらいでpythonの実行環境汚したくないですよね？
とはいえGCPなんかのクラウドインフラ上にインスタンス用意するのも面倒、、、
そんな時はGoogle Colaboratoryがおすすめ。GPUも使えちゃう。
今回のセットアップではColabにwhisperを入れて音声認識していきます。

Colabのセットアップ

まずはColabにアクセスして、左上のファイルメニューからNotebookを新規作成を選んでNotebookを立ち上げる。
次に、ランタイムメニューからランタイムのタイプを変更を選んでGPUに指定しておく。

whisperはpython3.9系で実装されているがpython3.7系以降にも互換性はある。
Colabはデフォルトでpython3.7系が入っているけど、ここは念の為3.9系にしておこう。

!sudo add-apt-repository -y ppa:deadsnakes/ppa
!sudo apt-get -y update
!sudo apt-get -y install python3.9
!sudo apt-get -y install python3.9-dev
!sudo apt-get -y install python3-pip
!sudo apt-get -y install python3.9-distutils
!python3.9 -m pip install --upgrade setuptools
!python3.9 -m pip install --upgrade pip
!python3.9 -m pip install --upgrade distlib

whisperのインストール

Colabのセットアップが終わったらpipでwhisperをインストールする。

!python3.9 -m pip install git+https://github.com/openai/whisper.git

Colabに音声ファイルをアップロード

ここまで終わったら試しに英語音声を文字起こししてみる。
BBCが無料で数分の音声アップしてくれてるから、どれか適当に選んでダウンロードする。

Colabに戻って、左のファイルメニューから音声ファイルをアップロード

whisperで文字起こし

アップロードした音声ファイルをwhisperに入れるのはこんな感じで一行で出来る。
whisper <ファイル名> --model <モデル名>
今回はこんな感じでwhisperスタート。Colab上なので先頭の ! を忘れずに。

!whisper LearningEnglishNewsReview-20221005-FastFoodBadForTheBrain.mp3 --model medium

--model mediumは音声認識の精度を表していて、tinyからlargeまで五段階ある
https://github.com/openai/whisper#available-models-and-languages

おっと、文字起こしが出来てきたよう。
こんな具合にリアルタイムで結果が出力される。

日本語も扱える

whisperのすごいところは英語以外でも認識できるところ。
今回、バッドナイス常田のおもしろ動画を認識させてみた。

特にオプション渡さなくても日本語と認識してくれるのすごい

ものすごい精度でおもしろを文字起こししてくれる。これでmediumだからね？すごすぎっしょ

この記事が気に入ったらサポートをしてみませんか？