東芝の音声合成・音声認識技術

【投げ銭】有料設定ですが、無料で最後まで読めます。気に入ったら購入してやってください。

川崎市の小・中高生向け副読本用に取材・作成した記事です。当時(2005年)、川崎の東芝に入るとき、携帯電話のカメラレンズにシールを貼らされたことを鮮明に覚えています。実は、これは没になった記事なので、活字にはなっていません。同時に取材したロボットの方が掲載されたはず。

----------------------------------------------------------------------------

言語の壁を取り除く技術

 例えば、あなたが海外旅行に行ったなら、その国の人々と自由に会話できたら楽しいとおもいませんか?あるいは、日本に来た海外の人々に日本のいろいろなことを教えて上げられたら?そのためには、その国の言葉を覚えなければなりません、今は。でも、もしあなたの話した言葉を聴いて、自動的に相手の国の言葉に翻訳してくれる機械があれば、海外の人々とも自由にコミュニケーションできるはずです。SF映画やSF小説の中にしか出てこないような夢の機械ですが、もしかしたらもうすぐ手に入れられるかも知れません。

 自動的に知らない国の言葉でも翻訳してくれる自動翻訳装置を完成させるには、さまざまな技術開発が必要になります。その中でも重要な技術が「音声認識技術」と「音声合成技術」です。音声認識技術とは、人が話す言葉を聞き取る技術、音声合成技術とは、人の声を電気的に合成してコンピュータに言葉を喋らせる技術です。実を言えば、音声認識技術も音声合成技術も新しい技術ではありません。多くの学者や技術者が長年研究してきた分野なのです。しかし、川崎にある東芝の研究所では、これまで以上に『実用レベル』の音声認識・音声合成技術を開発し、すでに多くの製品に組み込まれているのです。

滑らかな発音でナビゲーション

 これまでの音声合成技術には、大きく分けてふたつの方式がありました。ひとつは母音や子音などの小さな音(音声素片)のピッチや長さを変えて音声にする『波形編集方式』、もうひとつは、いろいろな音声のサンプルを集めてそれを繋げて音声にする『大規模データベース方式』です。波形編集方式はデータ量(メモリサイズ)は小さくなりますが、音質が悪くなってしまいます。一方、大規模データベース方式では良好な音質が得られますが、データ量は大きくなってしまいます。


従来の音声合成技術

 東芝では、『閉ループ学習法』という技術で、少ないデータ量で高い音質の音声合成を行います。ある音声を合成する場合閉ループ学習法では、あらかじめ録音しデータベース化したさまざまな場合の声を分析し、音声合成辞書から抜き出した素片を使って合成した音声と比較してより自然に近い音声を合成する方法です。さらに生成された音声素片を合成辞書にフィードバックすることで、より高い精度の辞書になっていくのです。

 このようにして、従来よりも自然で高音質、さらにデータ量が少なくて済む音声合成が可能になりました。

 東芝の音声合成技術は、日本では多くのカーナビゲーションシステムなどに採用されています。また、日本語を含めて9ヶ国語の音声合成技術を開発済みです。今後はより多くの外国語対応や感情表現や会話調の発声、方言などの発音も開発予定です。

誰の言葉でもすぐに認識できる

 一方、音声認識技術においても、東芝は新しい方式を開発しています。従来の音声認識技術では、ひとつの文章をひとつひとつの単語(音節)に分解して、それぞれについてどんな言葉かを判断していました。また、多くの場合、認識できるのは事前に声を登録した人だけに限られていました。人の話す声の周波数は人によってばらつきがありますし、イントネーションも違うからです。しかし、同じ人であってもその日の体調や気分、状況によってイントネーションや長さが異なる場合があります。そのため、従来の音声認識技術では、音声の認識精度はあまり高くありませんでした。
 人が話す言葉は、文字ひとつひとつを発音しているのではなく、ひとつの単語の中でも滑らかに変化するものです。東芝の音声認識技術では、この点に着目しました。ひとつひとつの音だけでなく前後の変化も分析することで、より精度の高い音声認識を行えるようになったのです。従来方式が線ならば、東芝方式は面で分析するのです。
 東芝方式では、さらに認識精度を上げるため、ある単語の次に来る単語の可能性を調べ、それを判断材料に使用します。

「アメリカ」の次には「合衆国」、その次には「大統領」が続く可能性が高い

 また、「どこにいても」声を認識するためには、声とその他の雑音を区別する必要があります。車や街中の騒音(いわゆるバックグラウンドノイズ)を切り離すことは比較的容易ですが、複数の人間が同時に発声した場合にそれぞれの声を切り分けることは大変です。例えば、車の中で音声認識技術を使う場合、運転者と助手席の人の声を別々に認識する必要があります。このような場合には、ふたつのマイクを利用します。それぞれのマイクと認識対象となる人の場所が分かっていれば、それ以外の人の声をカットすることができるのです。

 このように東芝が開発した音声認識技術を利用すれば、どんな場所でも誰の声でも認識することができるのです。
 音声合成・音声認識技術を利用することで、目や身体の不自由な人や機械の操作に不慣れな人、高齢者などでも、最新の機械を簡単に操作できるようになります。また、手足を使った作業中でも、別の機器を操作できます。今後、人と機械、人と人をつなぐための重要なインターフェースとして期待されています。携帯電話やPDA、ノートパソコンなどのモバイル機器やFAX、電話、エアコン、オーブンレンジなどの家電、車や自動販売機といった機器に組み込まれていくことが予想されます。東芝の技術は、そうしたさまざまな機器を支える要素技術として普及していくことでしょう。

----------------------------------------------------------------------------本文はここまでです。
気に入ったら【購入】ボタンをクリックしてくださるとうれしいです。

ここから先は

0字

¥ 100

この記事が気に入ったらサポートをしてみませんか?