見出し画像

TOEICの音声をWhisperで認識して編集してみる

以下のつづき
TOEIC Programの公式サイトにある参考問題のNo. 7を利用して試している

  • TOIECのPart 2の音声をWhisperで音声認識して編集できないか試行錯誤している

  • Word単位の時間が得られると、音声編集するときに便利だと思い試してみた

  • 以下のように、--word_timestampsを指定すると、ワード毎の時間が取得できる

whisper --model base --language en --word_timestamps True Part2No7.mp3
  • 以下のような階層化されたデータが得られる(JSON形式)

    • 5つのセグメントがあり

    • 1つ目のセグメントは「Number 7.」という設問番号の音声

    • 1つ目のセグメントに含まれるワードは「Number」と「7.」

    • 期待するデータが得られた

  • word_timestampsをOnにすると処理時間が長くなるようだ

  • 適当なプログラミング言語で音声編集すればよさそう

    • WhisperはPythonからでも実行できるので

    • Pythonを使うのがよさそう

    • 音声の編集はpydubが便利そうだ

Pythonのpydubを使って音声を編集してファイルに書き出してみた結果、設問番号とA、B、Cを削除することに成功した

  • 今回の例では、pydubの無音検知機能を使って音声処理した方が高速で正確、実装も簡単そうだ(結構、時間を費やしたので悔しすぎる結果だ)

  • 認識した結果を利用して、正解を推測しようと思ったら、AIが必要になるだろう

    • TOEICの癖のある返答に、一般的な会話のAIが対応できるか興味がある

    • 人間の自分は、TOEICのPart 2の奇抜な応答に?が出ることがある

    • TOEICワールド向けのAIを作るのもおもしろそうだ

  • 今回の実験で得られたWhisperの知見は、また別の形で活用できたらと思う

この記事が気に入ったらサポートをしてみませんか?