世界の声を保存すること。今ある声を活かすことーー最新「音声データベース」の紹介

2023.1/27 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、世界中の音を保存するプロジェクトや、音声認識技術のための音データについて紹介します。

◾世界中の伝統音楽を保存するウェブサイト

音声や音楽は、文字のように残りづらいため、意識的に保存する必要があります。以前も紹介したように、人間の声を言語別に音声として保存する「Common Voice」という国際的なプロジェクトも存在します。

このように、現存する、あるいは失った様々な音データの収集・保存が注目される中、慶應義塾大学は2022年11月10日、「Global Jukebox」という、世界中の音楽・伝統芸能の音声を検索できるウェブサイトを公開しました。

このGlobal Jukebox、なんと1026民族から収集した5776件の音声記録を掲載しています。利用には無料の会員登録が必要ですが、研究者だけでなく一般にも公開されているため、誰でもアクセス可能です。

世界地図に表示されている音声が選択可能で、例えば日本では東北地方の津軽山唄(安全を願って歌われるもの)等が登録されており、ヨーロッパやアフリカなど、世界中の伝統音楽が聴取可能です。

関わった17名の研究者達によってリズムやメロディー、声色等を分析し、5776曲は37種類に分類できるとのこと。研究者は、これらのデータが他の研究者達を刺激することを期待し、またこのデータベースの公開にあたっては、文化の公平性を保つよう努力したと述べています。

◾最新の音声認識データベース

一方、昨今は合成音声など、AI学習のための音声データベースが重要になっています。例えば中国でも、2019年に設立された「未有科技(iWillTech)」というスタートアップ企業は、音声認識や合成音声領域に着目。世界のマイナー言語を中心に、205言語をカバー、60以上の言語のデータセットを保有し、テンセントやアリババ、バイトダンスといった中国企業にAIのトレーニングデータを提供しているとのことです。

そんな中、日本のテクノロジー企業「レアゾン・ホールディングス」が、日本語音声認識モデルと日本語音声コーパス「ReazonSpeech」を無償で公開しました。データは19000時間におよぶ日本語音声学習用のもので、国内最大級です。

ちなみに、音声コーパスとは、「音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する」ものです。

中でも注目されたものが、高精度の音声認識モデルです。商用も可能とのことですが、レアゾンによれば、OpenAIが開発した音声認識AI「Whisper」に匹敵する性能とのこと。文字起こしも可能です。他にも、コーパス作成ツールと音声コーパスが公開されています。

世界中で音声認識モデルが開発されていますが、どうしてもデータが多く精度が高いのが英語です。また、英語に近い西洋語圏に比べ、日本語は一歩遅れを取りがちです。しかし、今回は日本語データに特化することで、高い精度を誇るデータセットとなっており、これを利用して日本語に関わる様々な製品やサービスの登場が待たれます。

このように、音の収集・保存・そして活動は、文化や学術、ビジネスなど、様々な領域で展開されています。

この記事が気に入ったらサポートをしてみませんか?