見出し画像

あなたは別の人の声になれます RVC、Beatrice、(ノートPCでできます)

この記事は裏TUT Advent Calendar 2023 - Adventarの一日目の記事です

私のまえがき

私の話をします。
早く声質変換したいって人は飛ばしてよいです。

AIは画像生成の方から入りました。
画像生成を触って感動。3DS以来の大きな感動。
スマホやSwitchを触ったときにはこんなに感動しなかったかもしれない。
あの感動。
人につられて感動したみたいなまねっこじゃなくて、一人で美しい景色を見た時みたいに自分の心の底から感動。
これが未知の世界への感動ってことならインターネットが無かった時代の冒険家達は同じ思いをしていたのかな。

それはさておき声質変換を紹介します。

VC Clientがあなたの声を変える

今すぐ声を変えるならVC Client!!!

VC Clientはボイスチェンジャーです。
CPUでも動いて嬉しいなぁ。

VC ClientgithubVC Clientがダウンロードできるhugging faceのURLが貼ってあります。
ダウンロードしましょう

▲githubに書いてあるフレームワークを見て、お使いのパソコンに合ったものをインストールしましょう。
▲hugging faceからだと見にくい。10種類以上見えるが、過去のバージョンが置いてあるだけで
大きく分けて3種類しかない。右側の「○○days ago」を見て日の浅いものを選ぼう。

ダウンロード
そして解凍
ファイル開く
start_http.batを実行
警告出るけどやる
ネットワークのアクセスも許可(たぶんしなくてもいける)

VC Clientスタート…

▲Nice UI

VC Client 操作開始

一応左上の(?)からヘルプに飛べるけど世の中にはヘルプも読めないしreadmeも読めないやつがいっぱいいるんだよな!そんなやつのためにあるサイト、note

下の方に設定項目がいっぱい!
いっぱいあってしんどいな
でも半分は使わないよ、動かすためにはまずここ!

▲まずはここ、入力機器と出力機器の設定
inputが入力だからマイクを入れよう
outputとmonitorが出力、2つあってお得!スピーカーを入れよう。

よし、やろう!
TUNEで声のトーンを調整。
男声と女声の違いがTUNE12分違うからあなたの声が低いならトーンを上げよう。モデルの子と同じくらいのトーンにすると音声のデータが多くてうまくできるよ!
startでスタート
キャラの左上にあるvol: buf: res:の文字が動き出したら変換のはじまり

▲startでスタート!GAINのinが入力感度。デカければデカいほどいい(と言う人もいる)
outが出力音声の大きさ。TUNEは男声を女声に変換するなら12程度上げる、高い声ならそれ以上


…どう?ぶつぶつとぎれる?

C P U の ス ペ ッ ク 不 足

いいえ、世界はそんなところまで厳しくありません
できますできます変換できます

▲注目すべきはCHUNK、声を切り取るレンジ
長くするほど声遅れる、でもその分、綺麗になる
もしくはGPUパワーでごり押し

私のノパソは448で3秒遅れました
GPUパワーなら16とか8とかにゴン攻めで0.5秒の遅延で使うことが可能
でもあまり短くするとアプリがこっちの喋り方を認識しづらくなって発音が変になるから1,2秒遅れるくらいがいい。パワーだけじゃダメだねぇ

Beatriceを知ってるか、GPU無き方

BeatriceProject BeatriceBeatrice
v.1.5.3.17以降のVC Clientに標準ではいっているのがBeatrice
4人のモデルに交じって文字があったよな?それがBeatrice
Beatriceのいい所はCPUで動く所
さっきCHUNKを448だの512だのいじってたけどBeatriceなら
4!!!!!!!!!!!!!!!!!!!!!!!!
でも「ん」とか話しづらいから俺は
32!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
超簡単!レッツゴー!!!

▲Beatriceをクリックすると、、、なんやこのゲジゲジ!

ゲジゲジではありません
この一つ一つがボイスモデル
野郎の声になんて変換したくねえよな!ゲジゲジの上のfemaleをクリック
ゲジゲジで繋がったモデルたちは声が似ている
名前が無くても好みの声を探そう!
TUNEの最大値が2までしかないから …裏声を使おう

26がかわいい
でも元気に喋ればもっと可愛くなる
君が可愛くなろう!
モデルのデータセットはゲジゲジの右下にある利用規約にかかれている
ピンク色のモデルは心なしかかわいい気がする

RVCであの人の声になる

VCClientで使った白髪の女の子、つくよみちゃん
あの子のさっき出した声はRVCで動いていた
文章を書くAI、画像を産むAI、
その影に隠れている声を出すAIの技術が
このRVC(Retrieval-based-Voice-Conversion)
検索ベースの音声変換。
中国語で書かれてましたがgithubに日本語訳があってありがたい限りです。

このRVCWebUIがあればお持ちのGPUでモデルが作れる。
でもこの記事ではやりません
試すだけなら………………長い!!!!

こんなgithub抜け出して二人でhugging faceを見に行こうよ

▲hugging face→Models→検索窓にRVCと入力
すごい♪こんなに沢山♪
見てられるか!!!!!!!!!!!!!!!!!

良いモデルですか?あります
良いモデルはこちら

またゲジや!

▲ここで選んでサンプル聞いて好きなのをダウンロードしよう
私はCとD4にします
モデルのURLを開くを押してhugging faceに行くぞ!!!
▲画像右のいかにもダウンロードなボタンを押す
.pthが必要不可欠、.indexも使うと良くなるらしい。耳バカだからわかんねえけど

VC Clientに帰ろう

▲画像右下に編集ってあるぞ、編集したい

編集ボタンを押せば中には200人分のモデルが入る空間
さっきのやつアップロードしよう

▲アップロードをクリック。ファイルがmodel_dir内のフォルダにコピーされるだけだけど。
▲Modelに.pthファイル、Indexに.indexファイルを選択してアップロードしよう

やろうぜ再びRVC!
RVCだからCPU勢はCHUNKは448くらいにもどしてね

▲TUNEを12。INDEXは0.5くらい、INDEXを1にすると言葉がうまくいきにくいらしい
設定保存を押すとTUNEとINDEXがモデルを切り替えたときに失われない!
▲チュミィィィィンギャルギャルギャル
ナプキンを取る!どじゃぁぁん

RVCWebUIがあればお持ちのGPUで.pthファイルも.indexファイルも作れるからね。すごいね。

あなたは別の人と話せます

outputにCABLE Inputを入れてネットの向こうの人に聞かせよう
VBCABLEを入れよう

▲お使いのOSをクリックしたらzipファイルがダウンロードされる。解凍

ダウンロード
解凍
窓OS64bitだと思うからVBCABLE_Setup_x64.exeを実行
Install DriverでVBCABLEをインストール
再起動しよう

outputにCABLE Inputが追加されてるから出力したい方にCABLE Outputを
いれたら
おまえは
かわいく
生まれ変わる!
マイクと同じようにネットの向こう側に声を届けることができる!

実際に声を変換するとこんな感じです。声をRVCを使って動画を作りました。
超簡単画像生成stability matrixインストール動画超簡単 【鳩 再従姉妹】stability matrix/画像生成/Stable Diffusion - YouTube

▲声を出すために動画を作りました

明日の裏アドカレは
ぴっ さんの
学部5年からが本番! です

この記事が気に入ったらサポートをしてみませんか?