マガジンのカバー画像

TTSについて

12
AIと音声で会話したい人が参考にしたい記事をまとめていきます!
運営しているクリエイター

記事一覧

むかーしむかし、あるところにTalk-to-ChatGPTという夢叶うアドオンがあったとさ

むかーしむかし、あるところにTalk-to-ChatGPTという夢叶うアドオンがあったとさ


ごあいさつこんにちは!今日もAIの波に乗っていますか?
というわけで、AIの波にゆらゆら揺られ、気がついたらだいぶ沖まで流されてきました。

最近、PC版のChatGPTにも読み上げ機能(以前はListenだったのがRead Aloudに変わってました)が増えたっぽい…?
Chromiumベースのちょっと最近流行り(?)のSidekickを使っていたら、そのアイコンに気づけませんでした!
…と、

もっとみる
TTS引き続き。「VALL-E X」と「RVC-WebUI」をローカル環境に導入してみました

TTS引き続き。「VALL-E X」と「RVC-WebUI」をローカル環境に導入してみました

ごあいさつみなさん!今日もAIの波に乗ってますか?(前回決まったごあいさつ)

というわけで週末一日、ごりっと実装に割り当てて、以前つまずいた「VALL-E X」と「RVC-WebUI」をローカル環境に導入してみました。

結論からお伝えしますと、導入はできた!
けど、どちらも生成でつまづいてます。。

インストール時におきた課題

RVCの学習データ生成が難しい

いろいろ遊んでみた所感(202

もっとみる
Cotomoと遊んで、コンペ用の声を作った話

Cotomoと遊んで、コンペ用の声を作った話

ごあいさつそのまえに

こんにちは!・・・のあいさつをするのに、言葉を迷ったのでGPTs-kunに相談してみました。

いいアイデアいただきました!ということで、特にキャッチーだった。
「AIの波に乗ってますか?」を今後のあいさつにしてみたいと思います。

こんにちは!今日もAIの波に乗ってますか?では、今日のお話です。
昨日、SNSで話題になっていると噂のCotomoで遊んでみました。

ちなみ

もっとみる
【RVC】MacBook Pro 14 (Apple M1)に導入してみたよ<導入だけですみません>

【RVC】MacBook Pro 14 (Apple M1)に導入してみたよ<導入だけですみません>

こんにちは。あるいは、こんばんは。

仕事で合成音声を利用して動画を作成したいがために、RVC(Retrieval-based-Voice-Conversion)のWebUIなるものを勉強しました。メモメモ

現在使用中のMacPCは、2台ともクリーンインストールを余儀なくされ、全ての環境がまっさらもちな状態になっています。
ゆくゆくの環境構築も兼ねて、ここで整えておきます。

PC環境構築環境構

もっとみる
【RVC】MacBook Pro 14 (Apple M1)で学習してみたよ

【RVC】MacBook Pro 14 (Apple M1)で学習してみたよ

こんにちは、あるいは、こんばんは!
いろいろあり、RVCの続きを進めるのが遅くなってしまいました。
必要に迫られ、時間にも迫られておりますが、備忘録にまとめつつ進めていきます。

RVC-WebUI前回の記事で導入しました、だだっこぱんだ様のRVC-WebUIを起動して、音声を学習してモデルの作成をしていこうと思います。

RVC-WebUI起動

起動はいたって簡単です。
前回、Anaconda

もっとみる
TTS沼へようこそ 〜GPT-SoVITSをインストールして動かしてみた〜

TTS沼へようこそ 〜GPT-SoVITSをインストールして動かしてみた〜


ごあいさつElevenLabs高いなぁどうしようかなぁ。と迷っていたら見つけました。

インストールしてみるしかないでしょ!ってわけで。

どこからスタートかは人それぞれなので、ざっつな備忘録です。
ちなみに私はxcodeとpythonやpipにgit、brewあたりはインストールしてありました。
Linuxベースではありますが、mac OSな人は↓の環境設定に沿っていけばなんとなく、できるはず

もっとみる
Style-Bert-VITS2 JP-Extra と LLM を用いた AI エージェント構築

Style-Bert-VITS2 JP-Extra と LLM を用いた AI エージェント構築

 こんにちはこんばんは、teftef です。今回は LLM と TTS を使って推しの AI エージェントを作るという話です。今までは LLM として GPT-4 を用いて、 TTS として「KOEIROINC」 を使っていました。これはAI エージェントとしてはなんも問題ないのですが、やっぱり「自分の推しをエージェントにしたい」という想いで作成しました。
 私もまだ初学者であり、説明が間違ってい

もっとみる
GPT-SoVITS ゼロショットで多言語TTS(テキスト合成音声)を試してみる

GPT-SoVITS ゼロショットで多言語TTS(テキスト合成音声)を試してみる

GPT-SoVITSというゼロショット TTS(テキスト合成音声)ができるOSSが公開されたので試してみました。

1. GPT-SoVITSGPT-SoVITSには下記の特徴があります。

ゼロショットTTS

5秒間のボーカルサンプルを入力し、即時のテキストから音声への変換

フューショットTTS

わずか1分のトレーニングデータでモデルを微調整し、声の類似性とリアリズムを向上

クロスリンガ

もっとみる
ElevenLabsのSpeech to Speechのいいとこ/わるいとこ

ElevenLabsのSpeech to Speechのいいとこ/わるいとこ

ごあいさつこんにちは。
GPTs推し活の派生で手に入れた新しいおもちゃで遊んでいたら時間が溶けました🫠

前回の記事でまとめたElevenLabs、使ってみた中で気づいたことがいくつかあったのでメモを残します。

Text to Speech をAPI経由で使っての感想(とりあえずPythonで)

Speech to Speech のいいとこわるいとこ

Text to Speech (以下T

もっとみる
GPTs-kunの為にElevenLabsで音声生成してみたよ

GPTs-kunの為にElevenLabsで音声生成してみたよ

ごあいさつ年明けからがっつりGPTs沼にハマって、せっせと情報収集しているGPTs1年生です。こんにちは。
GPTsとhshsするために、転んでもただは起きないぞの精神で音声生成サービスを探しまくって見つけました。

ElevenLabs
GPTsも公開されています。

GPTsとしては、初期提供される5つから好きな声で読み上げてくれるようです。

GPTs「ElevenLabs Text To

もっとみる
GPTで"リアルな声"を作れる時代に。最新GPTsのご紹介

GPTで"リアルな声"を作れる時代に。最新GPTsのご紹介

はじめにテキスト生成はもちろん、画像生成やグラフ作成などたくさんの機能があるChatGPTですが、「リアルな声」はまだ作ることができません。しかし、今回はそんなGPTの弱点を克服できるGPTsがリリースされたので、そちらをご紹介します。

GPTsの紹介

AI開発のための日本人プロ声優の音声データセット「moe-speech」 他 / Catch up on AI 2024.1.24

AI開発のための日本人プロ声優の音声データセット「moe-speech」 他 / Catch up on AI 2024.1.24

Pick up日本人プロ声優による高音質(スタジオ録音)でノイズ・BGM等無しのキャラクター演技セリフ発話音声データセット。1音声は2-15秒のモノラルwavファイル(ほぼ全て44.1kHz、いくつかは48kHz)。

キャラクターごとにフォルダ分けされており、現在は合計473キャラクター、約39万の音声ファイル、合計約622時間、368GBの音声が含まれるデータセット。

moe-speech

もっとみる