あなたは別の人の声になれます　RVC、Beatrice、（ノートPCでできます）

2023年12月1日 00:04

この記事は裏TUT Advent Calendar 2023 - Adventarの一日目の記事です

私のまえがき

私の話をします。
早く声質変換したいって人は飛ばしてよいです。

AIは画像生成の方から入りました。
画像生成を触って感動。3DS以来の大きな感動。
スマホやSwitchを触ったときにはこんなに感動しなかったかもしれない。
あの感動。
人につられて感動したみたいなまねっこじゃなくて、一人で美しい景色を見た時みたいに自分の心の底から感動。
これが未知の世界への感動ってことならインターネットが無かった時代の冒険家達は同じ思いをしていたのかな。

それはさておき声質変換を紹介します。

VC Clientがあなたの声を変える

今すぐ声を変えるならVC Client！！！

VC Clientはボイスチェンジャーです。
CPUでも動いて嬉しいなぁ。

VC ClientのgithubにVC Clientがダウンロードできるhugging faceのURLが貼ってあります。
ダウンロードしましょう

▲githubに書いてあるフレームワークを見て、お使いのパソコンに合ったものをインストールしましょう。

▲hugging faceからだと見にくい。10種類以上見えるが、過去のバージョンが置いてあるだけで
大きく分けて3種類しかない。右側の「○○days ago」を見て日の浅いものを選ぼう。

ダウンロード
そして解凍
ファイル開く
start_http.batを実行
警告出るけどやる
ネットワークのアクセスも許可（たぶんしなくてもいける）

VC Clientスタート…

VC Client 操作開始

一応左上の(？)からヘルプに飛べるけど世の中にはヘルプも読めないしreadmeも読めないやつがいっぱいいるんだよな！そんなやつのためにあるサイト、note

下の方に設定項目がいっぱい！
いっぱいあってしんどいな
でも半分は使わないよ、動かすためにはまずここ！

▲まずはここ、入力機器と出力機器の設定
inputが入力だからマイクを入れよう
outputとmonitorが出力、2つあってお得！スピーカーを入れよう。

よし、やろう！
TUNEで声のトーンを調整。
男声と女声の違いがTUNE12分違うからあなたの声が低いならトーンを上げよう。モデルの子と同じくらいのトーンにすると音声のデータが多くてうまくできるよ！
startでスタート
キャラの左上にあるvol: buf: res:の文字が動き出したら変換のはじまり

▲startでスタート！GAINのinが入力感度。デカければデカいほどいい（と言う人もいる）
outが出力音声の大きさ。TUNEは男声を女声に変換するなら12程度上げる、高い声ならそれ以上

…どう？ぶつぶつとぎれる？

C P U のスペック不足

いいえ、世界はそんなところまで厳しくありません
できますできます変換できます

▲注目すべきはCHUNK、声を切り取るレンジ
長くするほど声遅れる、でもその分、綺麗になる
もしくはGPUパワーでごり押し

私のノパソは448で3秒遅れました
GPUパワーなら16とか8とかにゴン攻めで0.5秒の遅延で使うことが可能
でもあまり短くするとアプリがこっちの喋り方を認識しづらくなって発音が変になるから1,2秒遅れるくらいがいい。パワーだけじゃダメだねぇ

Beatriceを知ってるか、GPU無き方

Beatrice、Project BeatriceのBeatrice
v.1.5.3.17以降のVC Clientに標準ではいっているのがBeatrice
4人のモデルに交じって文字があったよな？それがBeatrice
Beatriceのいい所はCPUで動く所
さっきCHUNKを448だの512だのいじってたけどBeatriceなら
4!!!!!!!!!!!!!!!!!!!!!!!!
でも「ん」とか話しづらいから俺は
32!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
超簡単！レッツゴー！！！

ゲジゲジではありません
この一つ一つがボイスモデル
野郎の声になんて変換したくねえよな！ゲジゲジの上のfemaleをクリック
ゲジゲジで繋がったモデルたちは声が似ている
名前が無くても好みの声を探そう！
TUNEの最大値が2までしかないから …裏声を使おう

26がかわいい
でも元気に喋ればもっと可愛くなる
君が可愛くなろう！
モデルのデータセットはゲジゲジの右下にある利用規約にかかれている
ピンク色のモデルは心なしかかわいい気がする

RVCであの人の声になる

VCClientで使った白髪の女の子、つくよみちゃん
あの子のさっき出した声はRVCで動いていた
文章を書くAI、画像を産むAI、
その影に隠れている声を出すAIの技術が
このRVC（Retrieval-based-Voice-Conversion）
検索ベースの音声変換。
中国語で書かれてましたがgithubに日本語訳があってありがたい限りです。

このRVCWebUIがあればお持ちのGPUでモデルが作れる。
でもこの記事ではやりません
試すだけなら………………長い！！！！

こんなgithub抜け出して二人でhugging faceを見に行こうよ