見出し画像

音声生成ツール調べてみたの記事

0.はじめに

トヨタコネクティッド株式会社 先行企画部 新技術開発G所属のHalufy(ハルフィと呼びます…)です。

なんと、今は音声も生成できてしまうみたいなんです。
うまく使わないと、なかなかに怖いツールだなと思いますよね。音声合成を使って、著名人のネガティブキャンペーンを行えてしまうとか…。
そんな音声生成AIツールとそれに関連するツールを今回は調べてみました。


1.目次



2.音声クローニングツール

2-1.Lyrebird

こちらは、サンプルから音声を生成・合成するツールみたいです。
少量のサンプル音声から話者の声を模倣して生成できる能力を持っているそうです。
この仕組みの特にすごいと言われているところは、1分ほどの声の録音があれば、そこからその人の声質を再現できるという特徴だそうです。
ほんと、凄いですよね、、。
無料プランと有料プランがあるようですね。なので、まずは無料で試してみることができますね。


2-2.Descript Overdub

こちらは、Lyrebirdと同じdescript社が開発したものですが、こちらはLyrebirdの技術を利用したユーザーに直感的な編集ツールとなっているみたいです。
自身の声を登録しておくことで、テキストベースでの音声編集や生成が可能になるようです。つまり、テキストを自身の音声で読ませることができるんです!
無料プランと2つの有料プランがあって、無料プランでは、月に1時間分までの音声を作成できるみたいです。


2-3.Resemble AI

特定の声の特徴を捉え、新しいテキストに基づいてその音声をクローニングするツールみたいです。
ユーザーは自分の声のサンプルをアップロードして、それに基づいて合成音声を生成することができるようです。
無料プランでは、1秒ごとに0.006$かかるみたいですが、有料プランにすると毎月定額となりますね。



3.機械学習による音声合成ツール

上記の音声生成ツールとは少し違うのですが、こちらもAIを使った音声に関わるツールということで、今回調べてみました。

3-1.WaveNet

Google DeepMind社が開発した、生のオーディオを生成するための深層ニューラルネットワークというものですね。
これは、オーディオ録音上の声を、事前に録音しておいた別の声に交換しつつ、元の録音のテキストや他の特徴を維持することで、音声と音声の交換もできるみたいです。

これは、Googleの各種サービスで、米国英語と日本語のGoogleアシスタントの声を生成するために使用されているそうですね。

使用するためには、いくつかの方法がありそうですが、個人利用するには、エンジニア知識が必要そうですので、ハードル高めです。。(WaveNet やPythonのAPIを使用します。)

GoogleのHPでは、WaveNet含め、google音声についてより詳しく説明されてます↓


3-2.Audiosonic

ユーザーフレンドリーなインターフェースの無料AI音声生成ツールみたいです。
とてもシンプルな画面操作ができるようです。
様々なアクセントや言語で使用できる多彩な声を提供し、ピッチや速度、音量などの声のパラメータをカスタマイズできるのが特徴とのことです。


3-3.Vidnoz AI

こちらは、AI技術を活用した動画制作プラットフォームですが、その中に、音声変換機能やテキストから音声を生成する機能も含まれているそうです。
プレゼン動画の生成が手軽に行える、が特徴のツールみたいです。
無料で最大5,000文字までのテキストを読み上げ、合成音声にするオンラインサービスで、日本語にも対応しているとのことです。



4.おわりに

こういったツールで作られてしまうフェイクを見破るのが困難になってきましたよね…。
しかも非常に作り込まれているときますから。。ディープフェイクってやつですよね。。

やはり、適切に利用することで、心地良く、効率良く、技術の進歩の恩恵に預かりたいところですね笑
Descript社のツールなど、無料で試せるツールもあるようなので、ぜひぜひ使ってみても面白いのかなって思います ^ ^

ではでは。





テクノロジーの力で新たな領域を切り拓く、次世代の事業の柱を共に創造しませんか?

私たちはモビリティに留まらず、革新的なサービスを生み出すことを目指しています。
ニーズや、テクノロジーの進化を常に追い求める、多様なバックボーンをもつグローバルな個性豊かな仲間が集まり、様々な視点からのアプローチで新たな事業やサービスを創出しています。





この記事が気に入ったらサポートをしてみませんか?