AI技術の発展が著しい1年――「2023年の音」を振り返る

2023.12/29 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、2023年も終わりということで、2023年の音にまつわる研究やニュースについて振り返りたいと思います。

◾今年もやっぱり「生成AI」

まず、やはり話題になったのは生成AIでした。実は2022年の最後にその年のトレンドをまとめた際も、話題は「生成AI」でした。ChatGPTが登場したのが2022年11月下旬のことでしたが、その前から、短い音楽を聞かせるだけで自動的に次に続く音楽を生成する技術等が登場していました。

では2023年はどのような生成AI関連のニュースがあったのでしょうか。
例えば新年早々、1月5日には、マイクロソフトが合成音声AI「VALL-E」を発表しました。VALL-Eは、わずか3秒の音声データからその人の声をシミュレートできるもので、非常にレベルの高いAIシステムでした。

また、2月にはアメリカのFuturiという企業が、ラジオ放送用のコンテンツを自動生成するAI「RadioGPT」を発表しました。GPTと合成音声、そして流行等を予測してソーシャルコンテンツを生成する技術を組み合わせることで、ローカル情報を踏まえて、様々な地方のラジオ番組をつくることが可能になりました。

その後RadioGPTは11月に名前を「FuturiAudioAI」と変更し、さらに強力になったとアピールしています。

さらに、Googleやメタも生成AIを次々にリリースします。
まず、2023年5月11日、Googleが音楽生成AI「MusicLM」をリリースします。1月に発表そのものは行っていましたが、悪用を回避するなど、倫理的な問題のクリアに時間を要していました。文章でプロンプト=指示することで、音楽を自動で作成することが可能です。

続いて2023年6月には、Meta(旧Facebook)も音声生成AIモデルの「MusicGen」を、オープンソースで公開しました。

他にも、音楽分野の生成AIは常に開発が進められています。最近でも、11月にGoogle DeepMindが音楽生成に特化したAIモデル「Lyria」を発表しています。特徴としては、音楽だけでなく、9人のアーティストの声を学習させたことで、ボーカルの生成も可能になっています。また最近も、アメリカの「suno」が発表した音楽生成AIの「suno.AI」が、その精度の高さから注目を浴びています。まだまだ多くの生成AIがありますが、2024年もこの流れは続くことでしょう。

◾合成音声の発展

もうひとつ2023年に話題になったのが、合成音声です。同じく昨年から話題にはなっていたものの、今年は合成音声による詐欺が問題となりました。

代表的なものは「ボイスクローン」であり、子供の声のボイスクローンで「ママ、助けて」と電話をかけてきた事例がアメリカでありました。いわゆる「オレオレ詐欺」にも合成音声が利用される危険性も指摘されており、音声を利用した詐欺には来年以降も注意が必要です。

また、電話に出ると自動音声となり、詐欺に導く「自動音声詐欺」も問題となり、NTTファイナンスが注意喚起を行うなど、問題となりました。

同様に、ボイスクローン技術を利用し、実際のアーティストに別の人の歌や、個人が(生成AI等を用いて)作曲したオリジナルの曲を歌わせたことが問題となり、音楽レーベルが当該楽曲の削除を要請した、といったことも問題になりました。

日本でも、ボイスクローン技術を利用し、岸田総理のフェイク音声を流した偽動画が問題となったり、米ニューヨーク市の市長が、AIを利用して自分の声の特徴を残したまま、母国語の英語からスペイン語等の「音声翻訳」を行いました。これについては、選挙に有利に働く点等、便利であると同時に、混乱を招く要素もあります。

◾音声翻訳技術の可能性と課題

特にインパクトが大きかったものとしてはもうひとつ、音声翻訳技術の向上です。先に示したように、声の特徴を維持したまま、別の言語への音声翻訳技術が向上しており、英語以外を話すことのできないユーザーが、別の言語を、まるで自分が話しているかのように「翻訳」することが可能になりつつあります。これは先のような問題を孕む一方、世界中に「発信」するという意味では、非常に有益な技術です。

YouTubeは現在、一部のトップクリエイターに限定されますが、AIによる合成音声で、多言語への音声翻訳を可能にしています。この機能が拡大すれば、日本語で話している動画でも、同時に英語や中国語で話している内容を発信できるでしょう。

さらに2023年6月にGoogleの社内スタートアップ部門が、AIによるYouTube動画の言語吹き替え機能を、2024年までに搭載すると発表しました。この技術では、動画内の口元だけ吹き替え言語に合わせたり(リップシンク)、元言語の声色やイントネーションなども学習し、吹き替え言語も元言語の調子に合わせることができるというものです。

無論、ディープフェイク等の悪用には注意が必要ですが、いずれにせよ、可能性も多いに期待できる技術でしょう。

2023年はまだまだニュースがありましたが、やはりAIを利用した技術の可能性と課題を大きく感じる1年だったということができるでしょう。

この記事が気に入ったらサポートをしてみませんか?