声の波形を調べてボイチェンの設定に反映する

今日は布団の中からではなく、雲の中から書いてます。
今回は自分の声の波形を調べる方法+調べた波形をもとにボイチェンの設定をどう変えると良いさ考えてみようというお話です。
と、いっても私も最近Twitterで波形の調べ方を教えてもらって、知識がまとまってきたばかりなので試行錯誤の仕方を書くくらいになりそうです。

8割くらい自力で声を作れてるけどボイチェンで味付けしてる〜みたいな声の出し方の人向けです。ボイチェンに全てを委ねてる人にはあんまり関係ない話かも。

・そもそもなんでこんなことをする必要があるのか

まず、ボイチェンっていっても色々な種類がありますし、種類によっては設定出来る項目がたくさんあります。
よく使う機能から順に
ピッチ、フォルマント、イコライザー
等があり、設定の組み合わせ方は天文学的なスケールになります。
ピッチとフォルマントを20%以内に収め、尚且つ鍵盤1個分(6%)ずつの間で飛ばして設定するというめちゃくちゃ厳しい制限をかけても3×3=9通りになり、鍵盤半分まで分けると36通り、1%刻みなら400通り、イコライザーの掛け方まで考慮すると全パターン試すのは不可能です。
というわけである程度どういう試し方をするべきか、目星をつけて試すパターン数を減らすために、自分の声の何が悪くてどう改善したいのか数値で測ろうというのが今回の趣旨です。



お品書き

1.声を録音する

2.音源をwav形式に変更する

3.恋音で第三フォルマント、第四フォルマントを測る

4.wave spectraで詳細な波形データを見る

5.算数を使って数値の合わせ方を求める

6.ボイチェンに設定して聞いてみる



1.声を録音する

まずは録音しましょう。
聞き返すのが嫌になるかもしれませんが、聞いてみて何度か試行錯誤しながら録音した方が良いです。
録音する内容は「あーーー」って感じで5秒くらいの長さで、音程を変えずに発声するのが分かりやすくて良いです。
録音用のソフトについてはなんでも良いですが、wav形式、44100hz音質で録音出来るとファイル形式の変換作業がなくて済むので良いと思います。
ファイルの変換が必要でも30秒で出来るので使いやすいソフトで良いと思います。


2.音源をwav形式に変換する



適当な設定で録音すると、形式によってはこの後使うソフトで読み込めなかったりするのでファイル形式の変換をします。

例えばmp3で録音しちゃったー!って場合だと
「ファイル変換 mp3からwav」
みたいなワードでgoogle検索すると
https://convertio.co/ja/mp3-wav/
こんなページが出てきます。
このページでmp3のファイルを突っ込んだらwavのファイルにしてダウンロードできます。
1日の利用回数制限がありますが、似たようなサイトはたくさんあるので使いまわしてください。
同じようにmp4とか別の形式から変換しても良いです。


3.恋音で第三フォルマントと第四フォルマントを測る

声質を決める上で大きな割合を占めているのがこの2つのパラメータだと思うので、これを測ります。
まずは恋音をダウンロードします。


このページの下の方にダウンロードリンクがあります。
本文に使い方が書いてあるので読むことをオススメします!
ざっくり言うとピアノの鍵盤が縦軸になっていて、横軸に時間軸があってフォルマントは青線で、倍音は白線で表示されます。
女声っぽいものを出せばだいたい鍵盤の横に数字で7が書いてあるところから上、9よりは下くらいのところに2本〜3本の青線が見えると思います。
下から数えて1つ目が第三フォルマント、2つ目が第四フォルマントです。
この2つの青線の周波数を確認すると後述のwave spectraで読み取るのが楽になります。
青線がぐちゃぐちゃになってたり消えかかってる場合は録音し直してみると良いと思います。
それでも直らない場合、マイクの音量が低いか、フォルマントの音量が小さい(声の作り込みが上手くいってない)可能性があります。
フォルマントの音量が小さい時は設定で多少誤魔化せるので後述します。

ピアノの鍵盤を見て、周波数を判断する必要があるんですが、私は覚えてないので対応表を見ながら見つけてます。
追記)右上のグリッド線を押すと周波数表示してくれるのでそっちである程度分かります

https://khufrudamonotes.com/frequencies-for-equal-tempered-scale

B7( 黒鍵がなく8の数字のすぐ下にある鍵盤)が3950hzくらいなことだけ覚えてます。
第三フォルマントは4000hzくらいあると女声っぽくなるみたいな話を聞いてます。可愛い声の人は4300とかあるイメージですが、わたしはその辺は詳しくないので割愛します。ざっくり鍵盤横の8の数字の前後の周波数は覚えておくと目安として良いかも。



適当に取ってた音源を恋音で読んだ図

この図だと左のピアノの横に8が書いてある上下に青線が1本ずつあるんですが、下が第三フォルマントで上が第四フォルマントですね。
第三フォルマントが3900hzくらいで、第四フォルマントが5400hzくらいに見えますね。
でもこのままだとざっくりしか分からないのでどこらへんを見るかだけ知っておいて、詳しくはwava spectraで見ます。


4.wave spectraで詳細な波形データを見る


ボイチェンを通した後の声を調整中の時に取った図



wave spectraは声の周波数-音量グラフを見ることができます。
左下に設定があるんですが、その辺でOVLをつける、1と書いてあるところを300にする(読み取るデータの個数的なものだと思います)、録音マーク押すあたりの設定をしてからwavファイルを読み込むと波形のデータが出ます。

第四フォルマントの音量を上げる方法を見つけた時のツイートから切り抜き。一瞬でコツを忘れてしまった。

これは私が最近ツイートした画像です。
赤線を読み取ります。
最初の山が315hzくらいです。
これが基音とか、声の高さと言われる数字です。正確な数字はクリックしたら出てくるので山の頂点付近をクリックしてるとだいたい分かると思います。
横軸は周波数ですが、対数グラフになっているので軸の幅がバラバラで読み取りにくいかもしれませんが何度かクリックしながら周波数を読むと覚えてくると思います。周波数は左側に出ますね。

先程恋音で読み取った第三回フォルマントと第四フォルマントの周波数のあたりを探して波形を読むと、「あんまり綺麗な山になってないなー」とか、「そもそも第四フォルマントの音量めちゃくちゃ小さいなー」みたいなのが分かると思います。
このあたりで読み取ったことをボイチェンの設定に反映します。


5.算数を使って数値の合わせ方を求める


ここからは自分がそれっぽいフォルマントの数字とか出しますが、それはあんまり根拠がない数字だと思ってください。
というのもどういう声にしたいかで目指すべき数字は変わるので、あくまでここで出す数字は「私の思うそれらしい数字」でしかなく、読んでるあなたにとって正しいかは分からないです。

ボイチェンはたいていピッチとフォルマントを別々に分けて設定でき、元の周波数に掛け算する形で変換してくれるんですが困ったことにボイチェンごとに仕様が違います。

私の使ってるVSTプラグインのGfromはピッチとフォルマントのキー+2(112%)に設定するとフォルマントは1.12倍されます。これはフォルマント側の設定だけが掛け算されるので、ピッチ0、フォルマント+2にしても同じにフォルマントになるはずです。
なので、元々第三フォルマントが3500hzだけど第三フォルマント4500hzくらいあってほしいな~って人は
4500÷3500≒1.29
なのでフォルマントの数字を129%くらいに設定すると良いです。
ピッチの数字は別にどう変えてもフォルマントには影響しないので、話す時のピッチがどうあって欲しいか、同じように計算して求めればよく、220hzで声を出してて260hzにしたいのであれば
260÷220≒1.18
なので118%にすればいいですね。


バ美声とかはちゃんと試してないので正しいか分からないですが、自分の知ってる挙動から察するにピッチを上げるとフォルマントも一緒に上がるので、さっきのように3500hzの第三フォルマントを4500hzに変えようとした時、
4500÷3500≒1.29
(ピッチの倍率)×(フォルマントの倍率)=1.29
になるようなピッチとフォルマントの数値設定にしないといけないです。
とりあえずピッチとフォルマントの設定を同じ値にそろえるのであれば
1.29^(0.5)≒113.5
と、平方根を取ってあげると良いです。
つまりこの場合はピッチもフォルマントも113.5%に設定すると、3500hzの第三フォルマントが4500hzで出力されます。
恋声も多分このタイプの設定な気がします。

Voidolとかその他のボイチェンは試してないので知らないです。
ピッチとフォルマントの設定が独立してるかどうかを調べたい時は、ピッチを200%、フォルマントを100%に設定して適当に地声で喋って声が高くなるだけでなくケロケロした感じのロボボイスになったら多分それはバ美声と同じ連動型で、ただただ地声を高くした時みたいになったらGformと同じ独立型です。


6.ボイチェンの設定に反映して聞いてみる


設定の仕方とか、録音して聞く方法は各自でいつもやってるやり方で良いと思います。
ここでは読み取った数字から判断してボイチェンの設定を決める目安みたいなのを書いていきます。

a.第三フォルマントの値が低い
→読み取った第三回フォルマントの値に、ボイチェンのピッチとフォルマントの倍率を掛け算して4000〜4500hz以上にすると良さそうです。
第三フォルマントが3000hzで、ボイチェンの設定がピッチ120%フォルマント120%ならボイチェン後の声は
3000×1.2×1.2=4320hz
になるのでそれらしい値になります。
第三フォルマントが3500hzならキー+2の112%だとしても
3500×1.12×1.12=4390.4hz
になるので十分ですね。
もしGfromみたいなフォルマントが独立してるタイプのボイチェンなら
3500×1.25=4375
みたいにフォルマントを125%に設定すればいいですね。

もし、バ美声みたいな連動型のボイチェンでピッチをあげたくないならフォルマントの倍率だけ高くして合わせれば良いはずですが、ボイチェンはピッチとフォルマントの倍率がズレると音質がめちゃくちゃ悪くなるので出来るだけ合わせた方が良いとは思います。
解決策としては自分の出す声のピッチを下げて、ボイチェンの設定でピッチとフォルマントを同じ値で高めに設定するのが良さそうです。

第三フォルマントが高くなるにつれて男性→ショタ→女性→ロリ→ロボって感じに変化するので聞いた感じで調整してみてください。



b.第四フォルマントの値が低い
→これも同じように第四フォルマントの値にピッチ×フォルマントを掛け算してあげれば良いです。
目安5000〜6000くらいになるようにすれば良い気がします。

第四フォルマントが高くなると若い声になるようですが、ちょっと聞いただけであんまり詳しくないので調べてみてください。調べてもあんまり出ないけど。


c.第三フォルマントまたは第四フォルマントの音量が小さい/存在しない

→この場合はイコライザーでフォルマントになって欲しい周波数の音量を10dbくらい上げてフォルマントのフリをしてみると改善されるかもしれません。
自分は第四フォルマントが小さめなので6000hz前後の音量を上げましたが、聞いた感じ若さが伝わりやすくなった気がしました。


最後に

自分は声の特徴に関する知識がないので「数字を変えたければどうすれば良いか」は分かるんですが、「こういう声を出すためにはどういう数字にすれば良いか」はあんまり分かりません。
なのでそういうのが詳しく書いてある場所を見つけたら教えてください。


そうこうしてるうちに雲の中を抜けて地面の中を抜け、地上に出て家まで着いてしまったので今回はこのくらいにします。

この記事が気に入ったらサポートをしてみませんか?