見出し画像

音声認識技術をめぐる外部要因 |#4|AI×Speaking Test

《今回のポイント》

・オープンソース文化、API公開など《技術を使いやすい》環境に
・ビッグテックのAPI公開などが増加

技術の精度以外にも大事なポイント

Transformer、Conformerによって、自然言語処理・音声認識技術の精度は飛躍的に高くなりました。そして、音声認識技術を活用したスピーキングテストなどのプロダクトも高精度となり、実用化が進んでいます。

しかし、実はもう一つ、大事なポイントがあります。それは《精度の高い技術が使いやすい》状態であること。
たとえば、どんなに精度が高い機械学習モデルであっても、コストが高い、機械学習に時間がかかる、権利的に使いにくい…と、なかなか活用できません。なかでも、音声認識技術を活用したプロダクト開発では、転移学習がしやすいことが重要。転移学習しやすいモデルがあれば、少ないデータでも精度の高いモデルの学習が可能になるので、データ作成と機械学習にかかる時間やコストの削減につながります。

2つが揃ったことが大事

このように、技術の精度とそれを使いやすい環境の2つが有機的に組み合わさって、音声認識技術の精度向上、ひいてはスピーキングテストなどのプロダクトの精度向上を実現したのです。

オープンソースの文化

そもそも、機械学習やAI関連の領域ではオープンソースの文化が根強く、論文やモデル、データセットは世に公開されていることが少なくありません。技術の再現性を確認するためには公開する必要があり、公開した技術をより多くの人が使うことによってさらに精度が上がる…という構造でもあります。もちろん、世に公開できる技術なので最初から十分に精度は高いものの、たくさん使われることによってより良くなっていく…という思想です。

数多くのテックカンパニーがAPIを公開

機械学習やAI関連領域に限った話ではありませんが、世界中のテックカンパニーが自社のプロダクトやサービスに関わるAPIを公開しています。

APIを公開しているテックカンパニーの例)
・Google
・Microsoft
・Amazon
・GitHub
・OpenAI

こうしたAPIのおかげで、スタートアップなどリソースが限られた事業者でも精度の高い技術開発ができるようになってきました。特にビッグテックでは、膨大なデータと十分なリソースを保有しているので精度の高いモデルをつくることができ、それらを公開しているケースが多いようです。

#5「音声認識技術の使われているプロダクト」はこちら


今回は、音声認識技術をめぐる外部要因についてご紹介しました。
本シリーズでは、AIを活用したスピーキングテストを支える音声認識技術など、テクノロジー界隈の情報とトレンドをまとめてお届けしていきます。

取材をご希望の方、本件に関してのお問い合わせはこちら
株式会社レアジョブ 広報
メール:press@rarejob.co.jp

【レアジョブが提供する英語関連サービス】