見出し画像

GPT-SoVITS ゼロショットで多言語TTS(テキスト合成音声)を試してみる

GPT-SoVITSというゼロショット TTS(テキスト合成音声)ができるOSSが公開されたので試してみました。


1. GPT-SoVITS

GPT-SoVITSには下記の特徴があります。

  • ゼロショットTTS

    • 5秒間のボーカルサンプルを入力し、即時のテキストから音声への変換

  • フューショットTTS

    • わずか1分のトレーニングデータでモデルを微調整し、声の類似性とリアリズムを向上

  • クロスリンガルサポート

    • トレーニングデータセットとは異なる言語での推論をサポートし、現在は英語、日本語、中国語に対応

  • WebUIツール

    • 統合されたツールには、声の伴奏分離、自動トレーニングセットセグメンテーション、中国語ASR、テキストラベリングが含まれており、トレーニングデータセットやGPT/SoVITSモデルの作成をサポート

2. セットアップ

公式のREADMEを確認して、セットアップを行います。
Windowsユーザーであれば、下記のリンクから全部がバンドルされた圧縮ファイルが用意されているので、そちらのダウンロードがおすすめです。

https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true

ダウンロードが完了したら、go-webui.batをダブルクリックで起動します。起動するとブラウザが開いて下記のUIが表示されるはずです。

もしUIの文字が中国語だった場合は、https://github.com/RVC-Boss/GPT-SoVITS/blob/main/i18n/locale/ja_JP.json をダウンロードして/i18n/localeに配置してください。UIが日本語になるはずです。

3. ゼロショット TTSを試す

それでは早速ゼロショットTTSを試してみます。まずはUIのTopページから下記の手順でTTSのページを開きます。

  1.  1-GPT-SoVITS-TTSのタブを選択

  2. 1-GPT-SoVITS-TTSのタブ内の1C-推論のタブを選択

  3. 1C-推論のタブ内の「TTS推理WebUIを開始しますか」にチェック

    1. しばらくすると別のURLでTTSのページが自動的に開かれます。

TTSのページが開いたら下記の手順でゼロショットTTSを実行してみましょう!

  1. 好きな音声ファイルをアップロード

  2. 参考音声のテキストに音声ファイルに含まれるテキストを入力

  3. 参考言語を日本語であれば日文を選択

  4. 合成するテキストには合成したいテキストの入力

  5. 合成する言語を選択

  6. 音声合成のボタンを押して合成音声!しばらくすると合成音声が出力されるはずです。

日本語の音声をアップロードした場合でも、中国語、英語での合成音声もできるので、ぜひ試してみてください!


この記事が気に入ったらサポートをしてみませんか?