見出し画像

(おそらく)AIボイチェン可 VTuber活動に使って良さそうな音声アセット 試聴動画 補足

AIボイチェン「RVC」用のモデルもしくはその学習のために使ってよいとみられる音声アセットの変換結果をまとめた、こちらの動画の補足情報です。

ちなみに選曲の基準は声域でした。
女声モデルはHoneyWorksの「可愛くてごめん」、男声モデルは「宇宙戦艦ヤマト」です。

アセット掲載基準


各アセットが実際に下記の条件で利用できるかどうかは、必ずご自身で・最新の利用規約を確認してください。ご不明な点は各権利者様にお問い合わせください。
それなりの注意を払って絞り込んではいますが、利用規約は「予告なく変更することがある」と書かれている権利者様が多いですし、万が一わたしの解釈に誤りがあっても責任は負いかねます。


2023年5月6日時点で下記の基準を満たしているであろうと判断したものを取り上げています。

事前連絡なしで

  • AI学習(機械学習)が許容されている

  • 商用利用が許容されている

  • (多少の)NSFW表現が許容されている

  • (元データではなく)出力音声の配布制限が厳しくない

要・事前連絡となっているものも含めればもっと多くの権利者様を挙げられるのですが、個人様ゆえ必要になったときに連絡が取れないリスクを勘案したのと数が多くてキリがなくなるため、こちらでは挙げていません。

また、あくまで音声アセットの利用条件が上記に当てはまるかどうかしか見ていません。イラストにつきましては、試聴動画に掲載して問題ないかは確認しましたが、上記の条件は勘案していません。

音声の加工(ミックス)について

マイクの音をそのままボイチェン(RVC非リアルタイム変換)に通したままの声ではありません。後述のチェインでいろいろ加工しています。
VC Clientでのリアルタイム変換で加工なしだとちょっと響きが変わります。

特に、声量はおおむねワンコーラスでボーカル単独トラックが-16±0.3LUFSになるように調整しています。というのは、人間の耳は音が大きいだけで良い音に聞こえるようにできているためです。加工前は声量の大きいモデルと小さいものとで6LUFS(≒6dB)程度差がある組み合わせもありました。

音声加工のフロー

ノイズ除去 (RX 10 Voice De-noise)

ノイズゲート (Neutron 4)

LPF / HPF (Neutron 4 EQ)

コンプレッサー (Neutron 4)

リミッター (Neutron 4)

ボイチェン (RVC20230428)
非リアルタイム変換 pm
※女声モデルはすべてピッチ+12(200族)


リップノイズ除去 (RX 10 Mouth De-click)

ハーシュネス(不快音)除去 (Ozone 10 Stabilizer)

コンプレッサー (Nectar 3 Plus)

ディエッサー (RX 10)

プレートリバーブ (Nimbus)

リミッター (Neutron 4)

-16LUFS程度になるよう音量調整 (Neutron 4)

伴奏とミックス 

リミッター (Ozone 10 Maximizer)

比較用ボイス(夜御牧の従来型ボイチェン声)について

女声と男声で分けたことを除き、どのモデルの出力についても同じボーカル音源(夜御牧の地声)を変換しています。

「奇跡の一声学習→RVC非RT変換」は下記の手順で変換したものです。

  1. 従来型ボイチェンで一番まともに変換できる声域で、ITAコーパスのうちemotion100文を読み上げる

  2. 前項の音源を従来型ボイチェン(Little AlterBoy)で変換する

  3. 前項の音源をRVCに学習させてモデルを作る

  4. 共通変換元の地声ボーカル音源を、前項のモデルでRVCの非リアルタイム変換にかける

「変換前音源(地声)→従来型ボイチェン」は、RVCを使わず従来型のピッチフォルマントシフター(Little AlterBoy)で地声ボーカル音源を変換したものです。

なお、従来型のボイチェンの声がこれまでの配信と違うのは主にピッチの差です。これまで半オクターブ程度しか上げていませんでした。今回はピッチ+12です。Little AlterBoyでもピッチ+10以上上げるとこういうコスモを感じる声になります。。

取り上げたアセットと配布元

少女ボイス

  • RVC向け学習済みボイスモデルデータ
    「愛想良い系少女の声 5種風味パック」

    • 「リアルタイムバグ解決ほわっと風味ver」を除くRVCモデルには、歌唱に必要な音高ガイドが付いていません。
      ですので試聴動画では、音高ガイド付きモデルを作るために、各モデルを使って波音リツの「トーク向けコーパス録音」を変換し、その出力を再度RVCに学習させています。

      • また、波音リツ「トーク向けコーパス録音」そのままだとこれも変換がうまくいきませんでしたので、192kHz・24bitから24kHz・16bitにダウンサンプリングしたものを各モデルの声に変換しています。

  • 雁音七海
    24音階連続音 / rock / night

  • 綴よだか
    音素バランス100文コーパス / 歌唱コーパス

女性ボイス

  • 紬たか
    音素バランス100文コーパス

  • のほしお
    ITAコーパス読み上げ音声 + 【お星exVOICE】音声素材集Vol.1
    ※両方まとめて学習させたもの

    • 「exVOICE」は株式会社バンピーファクトリーの登録商標です。

  • Rinne ボイスセット RVC ボイスモデル

  • 波音リツ
    トーク向けコーパス録音 / 「波音リツ」歌声データベースVer2

  • 黄琴海月
    RVC Talk / Song

中性・少年ボイス

  • 黄琴まひろ
    RVC Talk

    • Songはなぜかうまく変換できなかったので試聴動画に入れていません。

  • 言緒丞
    ITAコーパス

    • 言緒結はなぜかうまく変換できなかったので試聴動画に入れていません。

バ美肉ボイス

  • zori

男性ボイス

  • akeomeeeeeee
    RVC向け学習済データ 男性

  • 松風
    ITAコーパス

リンク

その他、AIボイチェンの変換先に利用させてもらえそうな音声アセットのリンクです。