音声AIビジネス展開

深井ITゼミナール

2024年2月26日 01:20

故人の声再現・英語吹き替え

ChatGPTに代表される文章や画像などを自動で作る

生成人工知能(AI)が急速に進化する中、注目されて

いるのが人間の声を自然に再現する「音声生成AI」だ。

亡くなった人や病気などで声を失った人の声も再現

可能で、こうした技術を活用したビジネスは拡大する

見通し。

一方で犯罪に悪用されるとの懸念もある。

なりすましなど悪用懸念

令和元年の紅白歌合戦で、美空ひばりさんの歌声をAIが

再現したことが話題になったが、音声生成AIはその後も

大きく進歩した。

ベンチャー企業のA社は、1時間だけ声の収録をして、

AIを用いて、その人の声を再現するサービスを実用化。

国内で最多の5000種類以上の声をAIで再現して第三者

に提供しており、声を提供したアナウンサーや声優は、

第三者から支払われたサービス料の一部を受け取ること

ができるというビジネスモデルを展開している。

声を失った人が失う前に録音していた声を活用してAIで

再現することもできる。

スマートフォンやパソコンで文字を入力し、AI音声で読み

上げれば、自分の声で他人と会話が可能になる。

一方、同社は日本語を母語とする人の会話を収録してAIに

学習させて、英語など外国の主要言語をAI音声で会話できる

ようにする技術を開発した。

日本の高い技術を持つ人気声優が、海外版のアニメでの中で、

そのままの声を用いて現地の言葉を話すことが可能になる

という。

AIエンジニアによると、音声生成AIの進化はこの5、6年で

急速に進み、学習のためのデータ量が少なくても、人間の

音声に近い高品質なものが作成できるようになった。

ただ、同時に悪用するハードルも下がっており、海外では

企業幹部の声をAIが生成して、その部下に指示する等の方法

で詐欺に使われる事例も出てきたという。

生成AIにできることは多くなっているので、それを一般の

人に知ってもらうことは重要だ。

AIによる音声認識

＜定義＞

音声認識は、人が発する言葉を音として入力し、これを

AIが言語に変換する事でテキストデータ化する技術である。

キーボードを用いるより、コンピューターへのデータ

入力が早く、タイプミスも起こらないことから、有効な

入力方式として活用されている。

＜用途＞

①会話型AI

AIと人間が会話をする形で作業を進めるロボットを指す。

電話による顧客対応システムとしてコールセンターなど

で用いられている。

②議事録作成

音声認識により言語として認識された音素をテキスト化

して出力するサービスとして使われる。

③翻訳

言語モデルを通して文章が理解できれば、AIによる自動

翻訳が可能となる。

単語レベルや定型の表現であれば、会話をそのまま多言語

に置き換えることも可能である。

④AIアシスタント

音声でコンピューターを作動させる接続部分(インター

フェース)としての音声認識。

スマートフォンやスマートスピーカーで使用されている。

AI音声認識の技術と仕組み

音声認識の大きな流れとして、

「発声された言語をデータ化した上で、どの

音声と近いのかを照合し、音を組み合わせ、

単語と照合し、文章を組み立てる」

がある。

これにディープラーニング(深層学習）が加わり、

単語の予測などが可能になる。

以下に利用されている仕組み、技術について紹介

する。

1⃣音響分析

音響分析は、人が発生した言語をマイクを通じて

音声データとして聞き取ることで可能となる。

この時に「声の強弱」「音と音の間」「抑揚」を

データとして収集し、特微量（数字化）を抽出し、

コンピューターが認識できるデータに変換する。

2⃣音響モデル

音響モデルは、作成した波形データに対して、

ニューラルネットを用いて、その音素を分析

して言語に変換する。

音のつながりを文字列に置き換えるために

母音と子音に分解し、対応する文字記号

(アルファベットなどの文字表記)の表象に

変換する。

例えば、「こんばんは」という音声の場合、

人間であれば、誰の言葉でも「こ」で認識

できる。

しかし、厳密には前後の単語や高低などで

音には微妙に違いがある。

そのため、音響モデルでは音響分析で抽出

した特微量(数字化）を元に、「KーO」と

いう音素になるようマッチングさせる必要が

ある。

3⃣音声(発音）辞書

音声辞書は、音響モデルでマッチングした音を

組み合わせて、膨大な情報データベースの中

から単語として認識させる。

例えば、

「こ」・「ん」・「ば」・「ん」・「は」

を認識したら、これらを組み合わせて

「こんばんは」という単語を認識する。

4⃣言語モデル

言語モデルでは、発音辞書で認識した単語や音響

モデルで認識したことを組み合わせ、音素の繋がり

が言語として成立するように選択する。

この際、事前に膨大な量のデータから単語のつながり

の出現率などを算出して単語を文章化させる。

5⃣単語リストと意味予測

言語によっては音素に対応する単語が複数ある。

AIは単語同士の結びつきと使用頻度、前後の

文節間の単語の関連性を学習し、適切な組み合

わせを選別。

特に日本語は音素の構造が単純で同音異義語

が多く、AIによる学習が難しい。

AIによる意味予測を伴う言語選択により、

「しきをたてる」、

「しきがたかい」、

「しきがちかい」は、

それぞれ

「式をたてる」

「士気が高い」

「死期が近い」と

テキスト化される。

AI音声認識の将来性

1⃣翻訳精度の向上

音声認識を活用して機械翻訳を行うことで、

外国人との会話もスムーズにできるように

なる。

2⃣緊急時の自動運転

音声だけでなく、心拍や血流の音も認識する

研究が進んでいる。

これにより、例えば車のドライバードライブ

中、運転中に心臓発作が起きた場合、心拍を

認識し、自動運転に切り替えるなど安全を

確保できる。

3⃣音声だけで買い物ができる

音声認識による検索の精度も高まっている

結果、話しかけるだけで買い物ができ、委託

してくれること、などが可能になり、より便利

に利用できる。

この記事が気に入ったらサポートをしてみませんか？