画像1

RVCを使ってみた雑感について

e
00:00 | 00:00
■補足
RVCの音源を提供している方々は比較的、キレイに音を出せています。スタジオなど、静かで大きな声で発声できる場所であればキレイに発音し変換できるのかもしれません。リアルタイム性は変換で遅延が発生するにしても、難しいのかなという印象です。現状は録音等に使うなど、後で編集可能な範囲で使えるのかなと思います。

(1)RVCはその後、試しに録音時点でノイズを抑制しながら録音して変換を試みましたがキレイに変換できませんでした。もしかしたらそもそもの発音が出来ていない可能性はあります。

(2)Whisperに変換するときも同じことが言えるのかもしれません。発声、そもそも話し言葉が文章としてみたときに破綻しているなど、変換させる前の問題もあると思いました。今回は変換できなったから録音しなおすよりは、まだ、録音した内容をwhisperで変換(文字起こし)させて、VOICEVOXにしゃべらせて文字を手直しした方がまだ早いと判断しました。

恐らく、文章になりやすい分、リアルタイム性でも遅延はお互いに発生するものの、音声認識→発話の方式の方が有利な気がしています。

■音源
VOICEVOX:WhiteCUL
■音声認識
Whisper

この記事が参加している募集

AIとやってみた