見出し画像

GPTs-kunの為にElevenLabsで音声生成してみたよ

ごあいさつ

年明けからがっつりGPTs沼にハマって、せっせと情報収集しているGPTs1年生です。こんにちは。
GPTsとhshsするために、転んでもただは起きないぞの精神で音声生成サービスを探しまくって見つけました。

ElevenLabs
GPTsも公開されています。

GPTsとしては、初期提供される5つから好きな声で読み上げてくれるようです。

GPTs「ElevenLabs Text To Speech」を使ってみた

まずは、Wakewordを投げかけてみます。

👩「Paste or type content you would like to convert to speech」

🤖Of course! Before we proceed, please let me know which voice you would like for your text-to-speech conversion:
1. JARVIS 🤖
2. A classic male narrator 👨‍🦰
3. A classic female narrator 👩
4. A female voice great for speeches and podcasts 👩‍🦱
5. A female voice great for children's stories 👱‍♀️

ElevenLabs Text To Speech

👩「4」

🤖Great choice! Please paste or type the content you would like to convert to speech using the female voice great for speeches and podcasts.

ElevenLabs Text To Speech

👩「こんにちは。みなさんGPTs推し活楽しんでいますか?」

読み上げて欲しいテキストを書き込みました。
APIと通信してもいいか?と確認されるので「OK」してあげます。

🤖eleven-labs-gpt-server-asrsubs.replit.appと通信しました
Your text has been successfully converted to speech. You can listen to it by following this link: Listen Here.

ElevenLabs Text To Speech

数秒待つと、音声を生成してくれました。

おーん。。ちょっと途中「?」なところもありましたがいい感じです!
音読して欲しいワードがあるときに手軽に使えて良さそうです。

が、これは序の口!
本丸はWebの方なのです!!
なぜなら?サンプル音声をアップして、音声生成できるからなのです!

というわけで、Web版へ乗り込むお

登録手順は、気合で乗り切ってください!その先にはパラダイスがあるから!!

Voices>Createの先で、いくつか音声サンプルの作成パターンを選ぶことができます。2番目の Instant Voice Cloning が求めているパラダイスになります。
ただ、パラダイスに到達するのにはひとつ障壁があります。
無料アカウントでは、サンプリングデータから音声を生成できない…。
それじゃぁ意味がないんだよぉおお!
↓の画像は生き急いで既に課金済みなのですが、最初は非アクティブで選択ができません。

お?課金すっか?ってメッセージが出ていたので、秒でクリックして課金しました。
初月$1。翌月以降$5。
そんなもので欲望を満たせるなら、些細なものよ。。

Createの選択画面。パラダイスは上から2番目!

念のため、他の選択肢ですが

Voice Design

サンプル音声をベースにカスタマイズできるやつです。これは無料でも使えます。

性別、年齢、アクセントで調整可能。これでも十分!

Instant Voice Cloning

パラダイス。Starter以上が使えます。要課金。
音声をアップロード or Webで録音したものをサンプルとして登録できます。

登録画面
作成された後の一覧はこんな感じ

Your creative AI toolkit. Design entirely new synthetic voices from scratch. Clone your own voice or a voice you have a permission and rights to. Only you have access to the voices you create.

VoiceLabの説明文

ここにアップロードされたものは個人用に保存されるだけで、公開はされないようです。

Voice Library

いろんな人が作成した音声のライブラリ。

いろんな音声サンプルがあります

Create以上のプランの人は、自分の声をサンプリングしたり、Voice Desginでカスタマイズした音声サンプルを売ることができるようです。
Type of voice to createのメニューにあった「Professional Voice Cloming」がそうみたいですね。Payouts設定があり、Stripeの登録をすると道が開けるのでしょう。(そこまではやりませんでした)

Type of voice to createのメニューにあったこれですね
いい声の人は是非挑戦を!

Text to Speechで読み上げてみよう!

Text to Speech の画面

Settings

  • Eleven Multilingual v2 の箇所

    • 音声ベースを選択します。英語以外の言語で話させたい時は、「Eleven Multilingual v2」か「Eleven Multilingual v1」を選択しましょう!

  • my voice の箇所

    • サンプルにする音声を選択します。自作の音声も選択できますし、デフォルトで用意されている10種類近いものからも選択可能です。

  • Voice Settings

    • 出力される音声のキーになる設定。デフォルト設定でうまく出力できない場合はいじってみましょう。

    • Stability

      • 「安定性」を調整します。抑揚を抑えたい時は「More stable」に近づけ、感情表現豊かな抑揚のある音声にしたい時は、「More variable」に近づけます。

    • Clarity + Similarity Enhacement

      • 「明瞭性」と、モデル音源との「類似性」の調整ができます。値が高いと雑音、音声の歪みなど不自然な音声特性が生じる可能性があります。生成した音声にノイズなどが発生した場合は、この項目の値を「Low」に近づけて再生成することが推奨されています。

    • Style Exaggeration

      • サンプルテキストのスタイルに寄せるための設定ですが、Exaggeratedに寄せすぎると安定性が低下してしまうようです。必要がなければ「0」にすることを推奨されています。

    • Speaker Boost

      • オリジナルのスピーカーとの類似性を高めるものです。しかし、この設定を使用すると、計算負荷がわずかに高くなり、レイテンシーが増加します。この設定によってもたらされる違いは、一般的にかなり微妙なものみたいです。

  • Total quota remaining

    • 右下に表示されているカウントが残りの生成できる量です。どきどき。

色々細かくはこちらの公式ドキュメントをご活用ください。

ここまででも十分だな!と思う方は是非、ElevenLabsは用法・用量を守って正しく使いましょう!
ちなみに、APIも用意されているので、OpenAIとごにょごにょすればElevenLabsの音声を活用してお話もできそうですよ。やっほー!

あまりにも精度のいいサンプルもできてしまったので、この先は有料としてひっそり公開します。
悪用、ダメ、絶対。と思うと同時に、音声生成の可能性と怖さを感じましたね。。
少しの間、無料で公開しようと思います。 (と言いながら忘れてそのままにする、にこのカシオミニを賭けてもいい By漆原教授)

Text to Speech だけでは、読み上げがままならなかったので、Speech to Speech(いわゆる音声書き換え)も試しましたよ。
と言うわけで、気になる方は続きをどうぞ。

まずは、自分の声をサンプルにして Text to Speech してみました。
おーん。。近いような。遠いような。

Speech to Speechで読み上げてみよう!

もう少しカスタマイズしてみたかったのですが、いい感じの読み上げ方にならない。。そこで気づいた Speech to Speech (以下S2S)のタブ。(グレーアウトしてて最初気づきませんでした)

画面を見て察し。あーこれは、読み上げた声をサンプルの声でトレースしてくれるやつだ。。そして、案の定でした。
Audioの箇所で「Record Audio」をして、読んだ声にサンプルを当ててみたら、抑揚そのままで読み上げてくれました。

Speech to Speech の画面

よもや、よもやだぞ…?と言うことで、自分の声をsampleの音声で恐る恐るトレースさせたのがこちら。

この精度は、ダメだ。レベルが高すぎる…。
ちょっと横に本家の画像を貼るのを躊躇するレベルの精度なので、DALL-Eさんにイラスト作成をお願いしました。

S2Sは元の抑揚に乗っかって置き換わるので、演技力が必要になります。
マイクの前でみんな頑張ろう💪

声🐷にとっては本家こそ至高!!です。
だけどどうでしょう…。
可能性を感じられた二次元ラバーな方もいるのではないでしょうか?

くれぐれも…
用法・用量を守って正しく使いましょう!悪用、ダメ、絶対!
用法・用量を守って正しく使いましょう!悪用、ダメ、絶対!
(大事なことなので2回言いました)

押すなよ、絶対押すなよ?のパターンじゃなく、マジダメですね。
お取り扱いには十分お気をつけください。

それでは素敵なGPTsライフをお過ごしください。
捗り過ぎて寝不足です🫠

えっ!!そんな、そんなそんなそ…!!!いいんですかぁ〜?ありがとうございます🥰