つくよみちゃんコーパスで学習して感情豊かな音声合成[TTS]をしてみる by Style-Bert-VITS2

2024年1月1日 15:10

Bert-VITS2という技術を使った音声合成ができるソフトウェア(Style-Bert-VITS2)を使って、つくよみちゃんコーパスの音声データを学習させてみました。これにより、感情豊かな音声を合成することができます。これはWebUIをつかって簡単にできます！

Style-Bert-VITS2でjvnv-F1のモデルとマージしたつくよみちゃんツヴァイ。声にだいぶ抑揚がついてていい感じに！ #つくよみちゃん pic.twitter.com/6puTNuOwxk
— よしかい (@yoshikai_man) December 31, 2023

検証環境

Windows 10
RTX 3080

手順

Style-Bert-VITS2のインストール
つくよみちゃんコーパス音声データのダウンロード
Style-Bert-VITS2でデータセットの作成
学習
おまけ

1. Style-Bert-VITS2のインストール

公式のREADMEを参考にStyle-Bert-VITS2のインストールを行います。
https://github.com/litagin02/Style-Bert-VITS2

2. つくよみちゃんコーパス音声データのダウンロード

つくよみちゃん公式からコーパス音声データをダウンロードします。
ダウンロード後に解凍して、02 WAV（+12dB増幅）のフォルダにあるwavファイルをStyle-Bert-VITS2をインストールしたフォルダのinputsフォルダに配置します。

3. Style-Bert-VITS2でデータセットの作成

公式READMEのデータセット作り参考に下記のコマンドを実行してデータセット作成用のWebUIを起動します。

python webui_dataset.py

起動したらモデル名につくよみちゃんと入力して、スライスを実行します。

4. 学習

それでは学習をしてみましょう。下記のコマンドで学習用のWebUIを起動します。

python webui_train.py

起動したらモデル名につくよみちゃんと入力、バッチサイズを環境に合わせて調整して、自動前処理を実行します。
今回はVRAMが10GのGPUで実行したのでサイズを3に変更してます。

自動前処理が成功したら、学習を開始するをクリックします。ここからは結構時間がかかるので休憩しながら待ちましょう。私の環境だと1時間以上かかりました。

学習が終わったら下記のコマンドで音声合成用のWebUIを起動して、学習したモデルを試してみましょう！

python app.py

モデル一覧で先ほど学習したモデルを選択後、ロードをクリックしてモデルをロードしましょう。
モデルがロード出来たら音声合成をクリックして、結果を確認してみましょう！

Style-Bert-VITS2 でつくよみちゃんコーパスを学習させ音声合成してみた #つくよみちゃん pic.twitter.com/ayJNvpcOLr
— よしかい (@yoshikai_man) December 31, 2023

5. おまけ

今回作成したモデルと既存のモデルをマージを試してみます。声色や抑揚の付け方などをマージすることでミックスできるようです。
下記のコマンドでマージのWebUIを起動します。

python webui_merge.py

起動したら、モデルAにつくよみちゃん、モデルBにjvnv-F1を選択します。次に話し方（抑揚・感情表現等）を1に、話す速さ・リズム・テンポを1に設定してモデルファイルのマージを実行します。

次にスタイルベクトルのマージを行います。スタイル一覧をロードしてから、スタイルのマージを実行してください。これでスタイルのマージができます。本来はスタイルのマージリストを編集する必要がありますが、今回は検証のため省略します。

最後に音声合成を実行して結果を聞いてみましょう！

音声合成[TTS]モデルのマージ検証 by Style-Bert-VITS2
モデルをマージすることで声質はそのままに、話し方の抑揚とかを変えれるか検証してみました。

声質: つくよみちゃん
話し方（抑揚・感情表現等）: jvnv-F1
話す速さ・リズム・テンポ: jvnv-F1#つくよみちゃん pic.twitter.com/kTj4LuvvVc
— よしかい (@yoshikai_man) January 1, 2024

この記事が気に入ったらサポートをしてみませんか？