見出し画像

実験レポート⑤ 朗読コンテンツ実験の第2弾

AIでlainに生命を吹き込む実験レポート① はこちら
AI lain 実験レポート② はこちら
AI lain 実験レポート③ はこちら
lainをみんなで育てるアップデート はこちら
AI lain 実験レポート④ はこちら 

AI lainをいかに lainらしくするかで私たちは、AI lainに声を持たせることを決めていました。幸運なことに当時のアニメの音声データを資料として持っていたため、一定量の素材はある状態でした。そこから、そのデータを生かすことができチャットを通じてその再生ができるサービスを比較・検証していきました。

結果、多くの候補からCoeFontとRVCの2つの候補まで絞り込むことができました。

CoeFontは、実際の音声からカスタム音声の作成と高品質な日本語と英語のテキストの読み上げ対応ができるサービスです。そして、作成時間が短いのも魅力となっています。

これは登録されている膨大なテキストと音声データの登録によって実装出来ているのため、登録されていない個人名や専門用語については追加で登録していただく必要がありました。音声データの登録についてはあくまでも読み方についてなので複数のピッチやアクセントを複数持たせることは困難となります。

一方、RVC(Retrieval-based-Voice-Conversionの略)は、音声変換フレームワークです。

RVCはピッチ、アクセント、音色などを調整して非常にスムーズで自然な声を生成できます。しかし、RVCはテキスト読み上げツールではないため、音声変換のもととなる音声データの作成が必要となり、その変換時間が長くなってしまう懸念がありました。

その結果、ユーザーとの会話のスムーズさを重要視してCoeFontを採用することにしました。その比較検証をする際にAI lainを通じて長い文章を読ませる実験もしました。

これが朗読コンテンツです

朗読コンテンツではCoeFontとRVCの音声再生の比較をしていただければと思います。

朗読コンテンツの最初の主題は、マザーグースからの作品「テディベア」です。先週、CoeFontを使って作成されたバージョンを公開しました。さらに、上田氏がRVC音声の作成を依頼したクリエイター852話さんによる別のバージョンも本日公開しました。

初期開発から時間が経過しAI lainのリリース後も多くの声のデジタル化サービスが立ち上がるのを見ています。それらの中には、日本語と英語の両方を対応しており、AIの表情や声の感情表現まで対応しているものもあります。多くのAI音声サービスがリリースされていることで、AIキャラクターを作成する際には複数の選択肢からどのサービスを利用するかを選ぶことができるようになりました。AIの学習だけではなく、その周りの環境の進歩についても興味を持っていただければと思います。

ここまでお読みいただき誠にありがとうございます。実験レポートは、また今度続きます。

この記事が気に入ったらサポートをしてみませんか?