見出し画像

【保存版】無料AIで動画・音声の文字起こしを行う方法(プロンプト付き)


はじめに 

顧問先からの相談がありました。
会議の音声やイベントの動画を文字起こししたいが、ボイスレコーダーで録音したものをWordの機能の一部であるトランスクリプトを使用しているが、精度が低いとのこと。
その会社はDXを提唱している会社なので、社内業務もできるだけDXしていきましょうと常々提案しています。

文字起こしサービスは有料・無料も含め数多くあります。いろいろと試した結果、現在採用している以下の方法をご紹介しました。

音声文字起こし

ボイスレコーダーなどで録音したファイルをLINEのサービスの一部であるClova Noteにアップロードします。

LINEらしく操作方法も大変わかりやすく、日本語の音声認識に最適化されているため精度も良いです。
10時間という無料時間枠の制約がありますが、試すには十分かと。
枠を使い切った場合は、海外製ですがこちらのサービスも精度が高いです。

音声文字起こしで最大の難題は、文章を整えることです。
会議やスピーチ、トークセッションなどの録音の単純な文字起こしの結果の文章は、雑音が入っていたり、オノマトペが入ったり、主語が省略されていたり、音が小さかったりなどの様々な理由で、そもそも文章になっていません。また認識されて文字となっているものも、当て字が間違っていたりして目も当てられません。

以下、YouTube動画の音声をトークスクリプト作成用ChromeExtentionを使用して書き起こした文字列です。
使用したChromeExtentionはこちらです。

(引用元動画)

(06:20)
開発者がそれを使っていただいてツールを 使ってえ自分たちの活を行っているわけ ですえそうでしそして私はだと思っている のはそういう点 ですえ色々な企業そして色々な方々と今後 も開発を進めていきたいと思っていますで は私たちのポートフォリオ ですえ皆さん の左手にはチャットGPTクラスの製品 チャットGPT今週ま向けですねえ皆さん も使っていただいてるかと思いますあの 有料と無料バージョンがあねえそちらはあ 世界中のコンシューマーの皆さんに使って いいいただき続けたいと思ってますそして 2番目がチャットGPTチームです基本的 にはスモールビジネスあるいは中小企業 向けのものとなりますそして3つ目が チットGPT エンタープライズというのは エンタープライズ用のスケールされた プロダクトですで今でも数千の企業に使っ ていただいていますえそして反対側に 

このような状況を救済してくれる力強い味方が、ChatGPTなどの言語モデルです。文脈を読み取っていい感じに日本語の体裁を整えてくれます。

しかし、これらの言語モデルの欠点は、入力できる文字数に制約があること。
1時間のトークセッションなどでは、文字起こしすると日本語で2万字を超えることも普通にあり、ChatGPTなどでは受け付けてもらえません。

そこで登場するのが、現在無料で使用できる以下の2つの言語モデルです。

Claude3 Sonnetは、無料で使用できますが、回数制限が厳しいです。また一時期Sonnetが使用できなくなったこともあり、いつ無料で使えなくなるかわかりません。

その代替案として、無料で大量の日本語テキスト(2万文字超え)を処理できるのが、Command R Plusです。しかも回数制限はありません。日本語を処理するクオリティも良いです。

以下の2つの文字起こしは、Command Rモデルを使用しました。

使用したプロンプト

最後に、言語モデルに文字起こしの文章を省略しないで修正させるためのプロンプトを掲載します。
普通に頼んでも、要約しか出力してくれないので、ここまでくどい表現のプロンプトを使用しています。
丁寧語を適切に使用すると言語モデルの精度も上がるのが一般的なので、最後に言語モデルに対してお願いをしています。

 あなたは音声認識で文字起こしされた文章を読みやすい文章に修正するプロフェッショナルです。
私はあなたに文章の修正を依頼します。
以下は音声を文字起こしした文章です。
この文章の意味を考えつつ読みやすく正しい日本語の文章に変換してください。
正確な全文を文字起こしとして記録する必要があるので、元の文章を省略しないで、全ての文章を変換してください。
お忙しいところ恐縮ですが、どうぞよろしくお願い申し上げます。
"""
(ここに文字起こし文を貼り付け)
"""

【お知らせ】GPTs開発中

当社では例えばこんなGPTsアプリを作っています。

  • ネイル写真からネイルアートを評価・スコアリングし改善案画像を出力するGPTs

  • ちらかっている部屋の写真から捨てるもの、片付けるものを自動判別し、整理整頓の手順をアドバイスしてくれるGPTs

  • 飲食店舗の外観写真からお客さんの入りやすさ、バリアフリーなどを自動で評価・スコアリングし、改善後のファサード画像を出力するGPTs

などなど、140種類以上、ChatGPT Plusユーザーであれば今すぐ使っていただける便利な画像解析、画像生成中心のGPTsが満載です。
詳しくはこちらのWebサイトに一覧表がありますので、興味がある方はぜひご覧ください(詳細は画像をクリックして当社Webサイトへ)↓👇


この記事が気に入ったらサポートをしてみませんか?