Whisperの変換精度と変換時間の違いを検証し、考察します

2024年2月1日 18:14

はみだしチャンネルのOgawaです。今回は、前回に引き続き、Whisperという音声認識・文字起こしツールについて話していきたいと思います。

Whisperとは

Whisperは、OpenAIが開発した高精度な音声認識モデルです。Whisperは、言語モデルのサイズに応じて、Large V3, Mid, Small, Base, Tinyという5種類のモデルが用意されています。これらのモデルは、変換精度や時間に違いがあります。私は、自分の持っているM1のMac mini（メモリ16GB）とiPhone 13（A15 Bionic, メモリ4GB）で、それぞれのモデルを試してみました。

変換精度と時間の比較

まず、standfmで配信したポッドキャストの音声データ（録音時間6分45秒）を、Whisperで文字起こししました。その際、どのような文字が起こされたかと、変換にかかった時間を測定しました。その結果を、noteに貼り付けました。

文字の変換精度に関しては、Large V3が最も高く、感動するほど正確に認識されました。Midも実用レベルの精度でしたが、Small以下はあまり良くありませんでした。私は、Small以下のモデルは使わないという基準を設けました。

変換時間に関しては、Large V3が最も長く、約40%の時間（2分45秒）で変換できました。Midは約25%の時間（1分38秒）、Smallは約9%の時間（36秒）、Baseは約5%の時間（19秒）で変換できました。Tinyは、Baseよりもさらに小さいモデルですが、約10%の時間（39秒）で変換できました。これは、改行の比率が多かったためだと思います。

精度と時間のバランスを考えると、Mid以上のモデルを使うのが良いと感じました。Large V3は、文字起こしの確認が必要かどうかというと、一応した方が良いと思いますが、ほとんど間違えることがありませんでした。

デバイスの性能の影響

次に、同じ音声データを、iPhone 13で文字起こししました。しかし、Medium以上のモデルは、アプリが落ちてしまいました。メモリ不足のような動きでした。Smallはできましたが、約22%の時間（1分20秒）で変換できました。Macと比較すると、約9%の時間で変換できたのが、iPhoneでは約22%の時間で変換できました。これは、チップ性能や変換効率の違いだと思います。

この結果を見て、iPadでM2やM1チップを搭載したモデルで文字起こしをすると、かなり実用レベルになるのではないかと思いました。

私は、個人で仕事をする場合やプライベートで使うPCは、比較的自由に選べると思いますが、勤めている小規模事業所では、Windowsが使われています。

その中でも、WhisperやAIを使う場合は、WindowsでNVIDIAのビデオカードを使った環境が、世界的には最適化されやすいという状況です。もちろん、変換効率も早いと思います。

しかし、そのWindowsで先行した技術が、だんだんとMacに、特にApple Siliconのものに最適化され直されているという雰囲気があります。

まとめと今後の展望

以上が、Whisperの文字起こしツールに関する私の話でした。Whisperは、音声認識の分野で革新的な技術であり、今後もさらなる進化が期待できます。

私は、Whisperを使って、ポッドキャストの音声をテキスト化し、noteやブログで記事として公開することで、リスナーや読者を増やしたいと思っています。Whisperに興味のある方は、ぜひ試してみてください。

それでは、今日はこの辺で。はみだしチャンネルのOgawaでした。ありがとうございました。

#Whisper
#文字起こし
 #精度
 #Mac
#言語モデル
 #変換速度

#stand_fm #podcast
#はみだしチャンネル

この記事が気に入ったらサポートをしてみませんか？