見出し画像

独自開発の医療向け音声認識エンジン誕生秘話をCTOにインタビュー


9月26日(火)より、法人向け通話録⾳装置「トビラフォン Biz」で、当社が独自開発した医療向け⾳声認識エンジンを活⽤し、通話⾳声から⾼精度なテキスト化を実現する新機能の提供を開始いたしました。

「えーと」「あの」など会話中のフィラーが除外され、
読みやすいテキストが自動で生成されます。


今回リリースした医療向け音声認識エンジンは、主に医療機関の電話業務における音声認識に特化しています。従来の汎用的な音声認識に比べて医療機関に特化しているため、ビジネス会話と比較して明瞭でない⾼齢の患者との会話や細かい症状などを高精度にテキスト化でき、通話内容の把握が容易になります。

実は、この音声認識エンジンは、リリースまで約1年半の月日をかけた大掛かりなプロジェクトでした。

なぜ独自開発に踏み出したのか、新機能の開発を通して何を考えたのか。

音声認識エンジン開発プロジェクトを主導した藤井CTOに開発秘話を聞きました。



自社初の音声認識エンジン開発の裏側

写真:トビラシステムズ CTO 藤井智康

ー そもそも「音声認識」とは、どういった技術ですか?

藤井:音声認識とは、人間が話した音声をAIが解析し、テキストに変換する技術です。
「これまで人間が行ってきた文字起こし作業をコンピューターが自動で行う」とイメージするとわかりやすいです。例えば、Apple製品の音声アシスタントでおなじみの「Siri」も、音声認識技術のひとつですね。


ー 今回、音声認識を使って「トビラフォン Biz」の新機能開発に至った理由は何でしょうか?

藤井:音声認識は便利な技術なのに、世の中にはあまり普及していないことに課題を感じていました。

普及していない理由としては、大きく2つあげられると考えます。

1つ目は、汎用的な音声認識ツールは、精度があまり高くないことです。

音声認識技術は、特定の利用環境、業種、話される専門用語などに合わせて最適化すれば精度がぐっと向上し、ツールとして活用しやすくなります。しかし、汎用的な音声認識エンジンは特定の業種・業界などに最適化されておらず、高い精度が出しにくい状態なのです。結果的にほとんどのユーザーは精度が低い状態で利用することになっています。

2つ目は、利用料金が高いことです。
音声認識エンジンはCPU使用率が高くなる上、外部のクラウドサービスなどを利用する場合はさらに原価がかかり、エンドユーザーへの提供価格が高くなってしまいます。便利な技術でも、ユーザーにとって手の届かない価格帯になっては意味がありません。

このように、便利なのになかなか使いづらい状況であることが、音声認識ツールが普及していない理由だと考えました。

そこで、トビラシステムズなら、この課題を解決できると思いました。


ー 他社で難しい課題を、トビラシステムズなら解決できる・・・?一体どういうことでしょうか、詳しく教えてください。

藤井:音声認識の精度は、利用する環境、業種、話される専門用語などに合わせて最適化すれば向上します。特定の利用環境や業種に特化して最適化を行えば、それだけ音声認識の精度も高くなるということです。
トビラシステムズは電話の領域で様々なサービスを展開してきたので、通話時の音声認識に特化できます。さらに「トビラフォン Biz」で最も導入割合が高い医療業に特化することで、医療機関の電話業務に最適な音声認識ツールを開発できると考えました。

また、自社で研究開発することで、最先端の技術をユーザーが利用しやすい価格で提供できるメリットもあります。精度のアップデートも自社開発なら継続的に行うことができます。


医療業界に特化した、トビラの音声認識エンジン


ー 医療機関向けに開発された音声認識エンジンを、どのように開発したのか教えてください。

藤井:開発は、2022年春頃から着手しました。

まずは、地元のAI開発企業に技術協力を仰ぎ、電話向けの音声認識エンジンを共同で開発しました。ベースとなる音声認識エンジンが準備できたら、次は自社でデータを学習させていきます。ここでどれだけ良質なデータを学習させられるかが、精度向上の鍵になります。


ー 開発にあたり、苦労したことはなんでしょうか?

藤井:AIに学習させるための教師データの準備には苦労しました。音声認識の領域では、音声とそれに対応するテキストをセットにしたものが教師データになります。音声の中の話をしている区間に対してテキストを作成することを「アノテーション」と呼びますが、これが想像以上に骨の折れる作業でした。

アノテーションを行う際に、用語の統一にも苦労しました。同じ言い回しに対して、漢字や送り仮名などのテキストに統一性がないと精度が上がりません。

また、教師データに地域や年齢などの偏りがあると、人間でいう方言のような癖のあるテキストが出力されてしまう場合もあるので、属性に偏りのない教師データの準備にも苦労しました。

私にとっては初めての本格的な音声認識技術の研究だったので、手探り状態ながら何とか開発を進めてきました。


ー 様々な苦労を乗り越えて開発した医療向け音声認識エンジン。精度はどの程度まで向上しましたか?

藤井:かなり正確にテキスト化できる品質まで向上させることができました。医療向けに特化したエンジンなので、病院でよく使われる言葉については他社製品よりも高い精度でテキスト化できます。

医療向け音声認識エンジンの精度比較。
従来のエンジンと比べて、医療用語がより正確にテキスト化された。


AIの更なる可能性を探る。トビラシステムズのこれから

ー 藤井さんは、これまでトビラシステムズでたくさんの製品開発に携わってきたと思います。今後チャレンジしてみたい開発などはありますか?

藤井:音声認識エンジンに関しては、時節的な言葉も学習させていきたいです。

例えば、「新型コロナウイルス」という言葉は、ここ数年で突如出てきた言葉ですね。今後も時節的な言葉が出現する可能性があるので、そういった言葉も学習させて、認識できるようにしたいです。

それから、私たちが利用しているようなEnd-to-End方式の音声認識は固有名詞の認識に弱みがあるので、医療機関名や病名を学習させるなど、固有名詞もより正確に判定できるように対応すればさらに精度が向上すると考えています。

今の音声認識エンジンだと、話を区切ったタイミングでしか判断ができないですが、文単位ではなく、前後の文脈からAIが話の内容を判断できるようになれば音声認識エンジンの可能性はもっと広がると思います。なかなか難しい分野だと思いますが、今後チャレンジしてみたいですね。


ー AIの活用。夢が広がりますね。

藤井:音声認識エンジンは今は「トビラフォン Biz」にのみ適用されていますが、他の自社製品にも今後活用ができると思っています。

また、音声認識とは異なるAIの領域ですが、LLM(大規模言語モデル)をSMSブロックに応用することも可能だと考えています。

トビラシステムズだからこそ生み出せる価値をユーザーに届けられるように、今後も研究開発を重ねていきたいと思います。


▼独自開発の医療向け音声認識エンジン、詳細はこちら


編集後記

一から開発を行い、課題に対して世の中に新たな価値を提供できる、トビラシステムズの技術力の高さを一社員として誇りに思います。

今回の「トビラフォン Biz」だけでなく、当社の製品は常にアップデートを重ねています。

企業としての目指す姿とユーザーの皆様の声を拠り所にしながら、今後も持続的かつ発展的に成長していきたいと思います。(近藤)

▼ IRについてのお問い合わせ
IRに関するお問い合わせは、下記ページよりお問い合わせください。
https://tobila.com/contact/


最後までお読みいただきありがとうございました。

▼ X(旧 Twitter)アカウント


・ ・ ・ ・ ・ ・ ・

(ご留意事項)
本記事は、情報提供のみを目的として作成しており、有価証券の販売の勧誘や購入の勧誘を目的としたものではございません。


この記事が気に入ったらサポートをしてみませんか?