見出し画像

[備忘]自分用AIボイチェンモデルのマージ手順について

夜御牧れるが自分のVTuber活動用に作ったマージモデルの成分表など。権利関係の整理用に書いたものです。


RVC女声モデル

夜御牧れるの地声をピッチフォルマントシフター(Little AlterBoy)に通したものと、ちはや神社様の「愛想良い系少女の声(しっとり風味ver)」、およびのほしお様の音声アセットをマージしたものになります。
また、しっとり風味のモデルに音高ガイドを付ける際、ITAコーパスの変換元データとして、波音リツの「トーク向けコーパス録音」を利用しています。

マージ比率としては、単純計算で夜御牧52.5% : しっとり風味17.5% : のほしお様30%になります。

RVCでのマージ手順

  1. Aモデル「夜御牧」Bモデル「しっとり風味」として、Aモデルの重み「0.75」でマージ

  2. Aモデルを上のモデル、Bモデル「のほしお様」として、Aモデルの重み「0.7」でマージ

夜御牧自身の声の加工

下記動画で比較用に入れたものと同じモデルです。

奇跡の一声です。変換元は従来型ボイチェン(ピッチフォルマントシフター)で一番まともに変換できる声域のものです。ITAコーパスを読み上げてRVCに学習させました。

ほぼ裏声(を変換したもの)で低音域では絶対出せないような声しか学習させていません。なので、RVCでこのモデルを使って出した低音域の声は、ヤミマキさん本人でも従来型ボイチェンでは出せません。

(そういうわけで、学習させた音源は念のため保存しています。需要がないので公開してませんが)

愛想良い系少女の声(しっとり風味ver)の加工

愛想良い系少女の声(しっとり風味ver)はRVCモデルとして配布されていますが、配布モデルには音高ガイドが付いていないため、そのままでは歌唱用に使えません。

そのため、下記の手順で音高ガイド付きのモデルを作成し、それをマージしています。

  1. 波音リツの「トーク向けコーパス録音」を、24kHz・16bit・モノラルに変換。ついでに無音除去

    1. 192kHzのままだとうまく非リアルタイム変換できませんでした(RVC20230428)

  2. RVC本体の非リアルタイム変換機能を使い、波音リツのITAコーパスを、しっとり風味verのモデルで変換

  3. しっとり風味verに変換したITAコーパスを、RVCで再学習

ITAコーパスの変換元音源をお借りした、波音リツ公式サイトはこちらです。

なお、愛想良い系少女の声(しっとり風味ver)はMITライセンスで配布されています。

MIT License

Copyright (c) 2023 ちはや神社, 由比鶴乃

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

のほしお様RVCモデルの学習元アセット

下記のアセットをひとまとめにして学習させました。

  • 【のほしお】ITAコーパス読み上げ音声【お星】

  • 【お星exVOICE】音声素材集Vol.1

※「exVOICE」は株式会社バンピーファクトリーの登録商標です。

RVC男声モデル

松風様のITAコーパスから作ったモデルと、夜御牧のボイチェン声をマージしたものになります。マージ比率は松風様85% : 夜御牧15%になります。

夜御牧のボイチェン声は女声モデルに混ぜたものとまったく同じなので割愛します。地声でもなければピッチやフォルマントを下げたりもしていません。

MMVC女声モデル

RVC女声モデルを用い、カノン様のITAコーパスをRVCで変換したものをMMVC1.5で学習させています。
(カノン様のITAコーパスは、声質でなく発話された文章を得るために利用)
RVC変換時のピッチは+4です。ITAコーパスのwavファイルは、96kHzのままだとうまくRVCで処理できなかったので、先に24kHzにダウンサンプリングしています。