自分だけの声で動画コンテンツを作ろう！GPT-SoVITSとStyle-Bert-VITS2で叶える、あなただけの音声合成モデル作成術

葉加瀬あい🎈【動画 × Note】でAI技術解説🔥あいラボの詳細はプロフィール欄まで🎈__ᗢᘏᓗ

2024年3月19日 12:55

どうも皆さん！コーヒーは豆から挽くタイプの女、葉加瀬あいです！以前の記事で、人間の感情を表現できるすごい音声合成AI「Style-Bert-VITS2」の凄さや使い方、できることについて解説しました。

今回は、このツールで使用できる学習モデルの作り方を解説していきたいと思います！

音声合成モデルの作り方がわかると、Style-Bert-VITS2を使ってAIにテキストをしゃべらせる際に、皆さんが好きな声でしゃべらせることができるんですよね。自分の声を学習させたり、許可を得た他の声を使って、YouTubeやTikTokなどで動画コンテンツをもっと楽に配信したい方には必見の内容になっていますので、ぜひ最後まで見ていってください！

なお、私の記事を読む上での注意事項などをこちらで説明しておりますので、以下のプロフィール記事をご一読いただいた上で閲覧するようお願いいたします。

それでは、早速続きを解説していきたいと思います！

Style-Bert-VITS2で自分の声を使った音声合成モデルを作ろう

AIに学習させるデータセット（サンプル音声）の準備方法

音声合成モデルを作成するには、まずAIに学習させるデータセット（サンプルの音声）が必要になります。必要なサンプル音声は大体数分から数十分くらいのものが好ましいです。

とはいっても、皆さんそんなに音声のサンプルをお持ちではないですよね？そこで、まずは他のAIツールを使ってそのサンプル音声を用意してしまおうというのが、今回の記事の趣旨になります！

音声合成モデルの具体的な作成においては、このデータセットの準備をしないと何も始まりません。
データセットの準備と学習をセットで解説してしまうと膨大な量になってしまうので、皆さんの見やすさを重視して、具体的な学習フローについては次の記事で解説していきたいと思います。

Style-Bert-VITS2の音声合成モデルの学習に使う音声データは「GPT-SoVITS」を使って作成することもできます。

GPT-SoVITSを使った音声サンプルの作成

わずか5秒の音声データがあれば、声を再現でき、なおかつ多言語にも変換可能なTTS、それがGPT-SoVITSです！

ゼロショットTTSで高品質な音声合成を実現するGPT-SoVITS

このツールは、ゼロショットTTSと呼ばれる技術を用いて、1分間や5秒間といった非常に短い音声ファイルから音声合成モデルを作成できます。

AIは基本的に与えられた音声（データセット）からしか音声合成ファイルを作成できませんが、GPT-SoVITSでは与えられていない情報や話者の声の特徴なども予測して音声合成を行ってくれるのが大きな特徴です。

しかも、かなり高いクオリティで、簡単かつ気軽にあなただけの音声合成モデルを作成可能です！デモ動画はこちらで公開されています。

GPT-SoVITSのデモ動画

GPT-SoVITSのデモ動画！
5秒とか1分のサンプリングでこのクオリティができるのは本当にすごいですよね！ pic.twitter.com/KaWNtPzRi7
— 葉加瀬あい (AI-Hakase) ✎. 楽曲制作＋AI解説＋保護猫活動🐾 をしている理系女子🎈 (@ai_hakase_) March 19, 2024

GPT-SoVITSの主な特徴

GPT-SoVITSには以下のような特徴があります。

ゼロショットTTSによる即時のテキスト音声変換: 5秒間のボーカルサンプルを入力し、即時のテキストから音声への変換が可能
フューショットTTSでの声の類似性とリアリズムの向上: わずか1分のトレーニングデータでモデルを微調整し、声の類似性とリアリズムを向上
多言語対応のクロスリンガルサポート: トレーニングデータセットとは異なる言語での推論をサポートし、現在は英語、日本語、中国語に対応
音声データセット作成に便利なWebUIツール: 統合されたツールには声の伴奏分離、自動トレーニングセットセグメンテーション、中国語ASR、テキストラベリングが含まれており、トレーニングデータセットやGPT/SoVITSモデルの作成をサポート

Windows版GPT-SoVITSのインストール手順

Windowsユーザーの方は、以下のリンクから全部がバンドルされた圧縮ファイルがダウンロードできるので、そちらの利用がおすすめです。

ここから先は

2,210字 / 15画像

読むだけで簡単にAIのプロに？！あいラボ：プレミアムプラン✨

¥4,980 / 月

あと9人募集中

☑３つの特徴１．技術的な質問・アドバイスが自由！２．本当は教えたくない、希少な技術やワークフローを惜しみなく公開！３．参加人数を３０人に制限！さらに、私の記事の内容や画像を使用した動画作成許諾の特典も⭕️ 👇️詳細はこちらから！ https://x.gd/4bmQx

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が参加している募集

AIとやってみた

24,310件

この記事が気に入ったらサポートをしてみませんか？