見出し画像

ソーシャルVRのこと(6)ボイチェンできづいたこと、そしてボイチェンのやりかた(私の場合)

おそらく、ソーシャルVRに対する単純な疑問として、なぜソーシャルVRに行くと、多くの人は女性アバターをつかうのか?という点があるとおもいます。実はこの疑問…わたしも同じだったんです。それゆえ私がソーシャルVRに入ったら、この疑問に答えを見出すために当事者になってみようということで女性アバターをつかってみました。で、実際にメタバース空間に女性アバターで入って、ある一つのことが気になりました。それは「声」です。どうせやるなら徹底的になりきってみようということで、今日は「声」についての話をしてみようとおもいます。そして、様々な選択肢があるなかで私はボイスチェンジャーをつかって声を変えるに至った経緯、そこで知った様々な事。その文化的な側面のお話と、どういうやりかたで声を変えているのかという技術的なお話し、コツについてもお話しします。


バ美肉おじさんになったときの意識とは

なかなか衝撃的な見出しですが、実際にやってみた結論からいうと、何の違和感もない、というか、別になんとも思わないのです。

私はVRChatでは、比較的性差が中性的な女性アバターを使っています。NeosVR/Resoniteでは、あえてもっと女性に振ったアバターを使っています。これには理由があって、先に入ったVRChatでは、まだ心理的に抵抗があったというのがあって、服装もショートパンツにジャケットといういで立ちで、女性ではあるものの中性的な雰囲気のアバターを選んで使っていました。しかし、特に何の違和感もなかったので、別なソーシャルVRに入る際は、もっと性差を振ってみようという思いもあって、ぱっと見で女性だろうとわかるアバターを使ってみました。最初の1ヶ月くらいは、これで人前でるのはどうかな…と、ちょっと恥ずかしかったのですが、それ以降は特に何の違和感もなくなってしまいました。

ソーシャルVRというのは、その辺の意識がそもそも希薄なのだと思います。
現実とは別な存在として、あっちの世界で存在するわけですから、そもそも別な存在で居たいという思いがあります。ここでは、肩書やら年齢やら性差やら、そういうものから解放されているのが心地よいのは私もそうですが他の人たちもそうなのでしょう。コミュニケーションしている相手がどのようないでたちであるか、というよりも、この人はこの格好をしている、というだけなのだ、という風に感じます。

まあ、写真を撮ったりする際は、そのいで立ちにふさわしいしぐさやポージングをしたりしますが、なんとなくそのアバターが持っている外見的な特徴にふさわしくない立ち振る舞いはしなくなります。これは、演じているというのに近いかもしれません、あんまり意識しなくともそういうビヘイビアをするのは無意識化でそういう存在を演じているのだと思います。

例えば、現実世界で、ラーメン屋さんの恰好をしたとします、黒Tシャツには「麺一筋」みたいなプリントがあり、ねじり鉢巻き、カーゴパンツ。あなたの立ち振る舞いはどうなるでしょう…「へいらっしゃい!」きっと威勢良くなるのではないでしょうか。 例えば、現実世界で、白衣をきて、ばりっとしたシャツにネクタイをして椅子に腰かけた時、あなたの立ち振る舞いはどうなるでしょう…なんか知的な雰囲気を醸し出したくなるんじゃないでしょうか。では、あなたが、見た目も普通にかわいい女の子だったらどうでしょう…おそらくご自分でも不思議なくらいにナチュラルに演じると思います…そのアバターにふさわしい立ち振る舞いを…
おそらく人間は外見から様々なモードを切り替える事が出来るのだと思います。それが現実のものでなくとも、なりきろうとしてしまうのです。いかがでしょう^^
アルバイトで、バイト先のお店の制服を着た瞬間、そのお店の人になれますよね…感覚としてはそれに似ているなと思いました。

これは、考えようによってはすごいことで、人間は見た目に即した別存在に簡単になれるということです。しかも中身に備わっているナレッジや人生のノウハウはそのまま…まるで、都合のいい異世界転生アニメのようです。
この解放感は現実世界で得るのが難しいなと思う事があります。

最後まで残った違和感が「声」だった

都合のいい異世界転生を果たしたとき、最初から気になるのが「声」のありかた。ここだけは現実のままなのです。そういうものなので気にしなくていいよ、と多くの人は言うのですが、どうせやるなら「声」もやってみよう、と思い立ってはじめてみたのが、ソーシャルVRを始めて3か月くらい経った頃でした。

声を変える事で得た結論

声を変えてどうなった、ここを知りたい人は多いかもしれないので、結論を先に言って、声を変えて行く経緯の話をしましょう^^
そこはどうでもいい人は、後半は読む必要はありません。

結論:本当に転生した気になれる、そしてこれは未来のきざしかも…
めちゃくちゃ新鮮でした…見た目と声が一致するというのは、もはや現実世界の私と仮想世界の私に関係する情報がゼロに近く、仮想世界には仮想世界の住人としての私が存在します。あるのは話し方、会話の質だけです。会話の質はさすがに現実世界のナレッジに依存するものなんですが、話し方は演じる事も可能です。考えようによっては、何にでもなれると思います。発信したい事があればVtuberはもちろんのこと、おじさんおばさんなのにアイドルにもなれるでしょうし、ソーシャルVRのなかでは現実と別存在になってしまう事も可能と言えます。(オフ会などはいろいろ悩ましいかもしれませんが)先に述べたように、アバターと声の存在は、おのずとそれを演じるような振る舞い、言動を意識していくようになります。この感じは自然とそうなるので狙っているわけではないから不思議です。
ソーシャルVRの中で、既にわたしを知っている人は一様に驚きました、最初は面食らうと人は笑うんだな、と思いましたがその後は普通に受け入れてくれています。初見の人からすれば、私が設定ミスでもしていなければ最初からその声なので、違和感はそもそもありません、かくして現実世界とは別な存在として仮想世界を楽しむことができています^^ 
これを気持ち悪いという言葉で嫌悪することもできますが、そのような思考停止の態度で留めてしまうのはもったいないような新しい可能性を秘めているように感じました。

たとえば、あなたが自らの現実の性別にギャップを感じている人ならば、仮想世界の在り方くらいは、そのギャップを何の違和感もなく埋めきる事ができるかもしれません。また、年齢や性差などの現実世界と完全に切り離したなにかとして活躍してみたいと思ったら、仮想世界ではそれが可能です。
例えば、年齢や性差よりも会話の質が表出する、という意味では、メンタル的な悩みを相談できるチャンネルは”転生人材”の方が相手としては話しやすいし人生経験が活かされるかもしれません、そう考えると、そこには新しいメンタルの向き合い方やビジネスのありかたにも影響をおよぼす可能性があるのでは?と思わずにいられませんし、働き方だってかわっちゃうかもしれませんよね、若者が社会として高齢者を支える…という構図だけでなく、高齢者が若者のメンタルを支える、とかミックスエイジ(さまざまな世代による)での物事の在り方、文化の在り方が出てくる可能性は高いですよね。音楽ならばジャスやロック、シティーポップに精通しているのは、その時代の実体験も含めた意味では年齢の高い人に強みがある場合が多いでしょうし、リミックスやボカロに歌わせることで全く新しいものを産み出し発信するということは若い人が得意かもしれません、全世代の心をくすぐる音楽はミックスエイジな考え方の方が生まれやすいかもしれません…このボイスチェンジするという事象は、実は単に声を変えるにあらず、現実とは異なる存在になる事で性差や年代などの外見的な障壁を取り払ったコラボレーションや”魂の交流(いい言葉が見つからない^^;)”のような様々な可能性の兆しであると捉える事もできます。

意外と忘れがちなのは、わたしたちが今生きているのは、2020年代も中頃に入ろうとしている時代である…ということです。今年は何年ですか?カレンダーにはかつてのSF映画みたいな数字が印刷されていますよね^^ もはや2000年代、2010年代の考え方は過去の考え方、過去の常識と言っても過言ではありません、テクノロジーも進化しているし、人間自体も時代に合わせたマインドセットのアップデートが必要です、あなたのマインドセットは2020年代を生きるためのバージョンになっていますか?もしかして、まだ携帯電話全盛期だった2000年代とか、2010年代のGAFA時代のマインドセット、ビジネススキルで生きていませんか?もしそうなら10-20年前の常識で物事を考えていたりしませんか?…仮想世界で起きている事は2020年代の出来事です。しかしまだ2020年代です、ここで起きている事はこれからのなにかの兆しです、変な先入観を持たずにまずは見てみる、体験してみるという姿勢が次の時代を考えるためには重要だったりすると思っています。

私が使っている機材

声を変えるプロセス(以下は声を変える事に興味がある人向け)

ここからは、私がやった声を変える試行錯誤についてお話ししますので、人によっては興味のないお話になろうかとおもいます。ここでやめていただいてもOKです^^

前提知識

実際に声を変えるというのは想像以上に大変でした。声を変える方法は大きく2つあります。ひとつは、自分で頑張って高い声で話す…いわゆる”両声類”です。ひとえに高い声で発声する、と言っても、これはかなりのノウハウとコツが必要です。カラオケで裏声を出せる人は、この発声方法をベースにして長時間発話しても疲れないように話す事ができるようですが、やってみるとなかなか難しい…しかも録音して自分の声を客観的に聴くと、男性であることが分かる声の成分が残ります。これをおさえる事が出来ているのが”両声類”であると考えると、そこは練習すればどうにかなる、ようになるには数年の時間を要するように思いました。(一応2ヵ月くらい頑張ってみた結果、そのような考えに至りました)

もうひとつは、機械に頼る方法、ボイスチェンジャーという機能を使います。これも自分の声をベースとするものと、完全に声を別な声に置き換えてしまう方法があります。これをやっている人たちを”ボイチェン”勢”と呼んだりしているようです。
 ボイスチェンジャーは、ソフトで行う場合と、機材(=ハード)で行う場合があります。そして、自分の声をベースにしたボイスチェンジャーの場合、地声をそのままボイスチェンジャーに通すと、変換後はかなり粗削りになる場合が多いように思います。もちろん、地声がボイスチェンジャーと相性が良い場合もありますので、そこには個人差があります。このため、ボイスチェンジャーに入れる声は、ちょっとだけ気を使います。なにに気を使うかというと、男性の声に存在する声のブツブツする要素を減らすということです。
 やり方は人によって異なりますので両声類の方々の声の出し方動画などを参考にされると良いと思います。私の場合は鼻歌を歌うときやハミングをするときに鼻に声を通すと思うんですが、あの要領で声を出します。そうすると、ちょっと地声より高音のブツブツ要素が少ない声が口や鼻元から出てきます。これをボイスチェンジャーにインプットします。
 私の場合、マイクが指向性のコンデンサマイクで、フルトラなどでも使いやすいようにワイヤレスタイプのものを使っています。このため鼻からの声はマイクに入りませんので、鼻から抜くのは息だけ、声はマイクに向けて口から出します。この辺はボイスチェンジャーから出てくる変換後の声をイヤーモニターで確認して調子を整えています。この辺は両声類の方々の発声方法に準じたものです、鼻腔共鳴とかエッジボイス、ミックスボイスといったキーワードを元にいろいろ検索すると、もっと的を射た声の出し方が出てきます。私がインプットしている声は、地声をベースとしたミックスボイス、という風にいえるかもしれません。このインプットボイスのフォルマウントとピッチをボイスチェンジャーで整えて仮想世界でのコミュニケーションに使っています。

 残念ながら私は男性ですから女性の声を男性ぽくする方法はわかりません。女性がさらにボイスチェンジしてキャラボイスを出したりする場合は、こうした事をしなくともボイスチェンジャーの設定で、かなり良い感じになるのではないかと思います。
 また、最近は、AIによる音声置き換えもだいぶ進化してきて、ぶっちゃけとてもナチュラルです、そのうち誰もが簡単に声を変える事ができるようになるかもしれませんね。

ソーシャルVRにおけるボイチェンの留意点

録画編集ができるVtuberさんと、ソーシャルVRのユーザーでは、ボイチェンに求める特性がちょっと異なると思っています。それは持続時間と遅延性に現れます。
コンテンツとして配信するVtuberさんたちの場合、30分程度の編集したものの場合はリテイク含めても1.5時間くらい、おそらく声を安定してきれいに出すために、全力を注いでいらっしゃると思います。これは編集できないソーシャルVRのボイチェンアイドルなども同じことが言えるかしれませんが短い時間で高いクオリティが求められると思います。

ソーシャルVRの場合は、終わりというのがなかなか読めません、平気で数時間を過ごしている人も多い事を考えると、持続できるやり方を考える必要があります。無理しない工夫が必要です。

そして、仮想空間で人とコミュニケーションを取るので、話した事が早く伝わる方がコミュニケーションとしては望ましいです。しかしボイスチェンジャーは、変換するのに時間がかかりますので、わずかな遅延が発生します。
このわずかな遅延がコミュニケーションにもたらす影響は意外と大きく、話にうまく入れなかったりすることもあり得ます。ではどれくらい遅延するのかというと、やりかたなどによりますが、0-1秒くらいです。ゆかりねっとなどを使う人は2秒くらい遅延するそうなので、会話の先を読みながら発話するという事をする方もいます。この遅延は、ソフト系のボイスチェンジャーやAIボイチェンなどでは避けて通れないため、会話やイヤーモニターする際などにもそうした環境に慣れていく必要があります。

そうした意味では、長時間かわらない声をインプットし続ける持続力と、
低遅延な環境であることが望ましいと言えます。

どんな環境をセレクトしたのか

私はソーシャルVRにゲーミングノートで入っているのですが、ノートPCは実装環境がタイトなので、サウンド基板にノイズが乗りやすいようで、ボイチェンソフトはすべてノイズに悩まされて使えませんでした、AI置き換えも同様に使えず、最終的に落ち着いたのは、音声変換を一切PC内部で行わない=機材を使う、という方法でした。

使ったのは、Roland社のVT-4というものです。ガビるとかいろいろ言われていますが、Roland社から出ているファームウエアの上書きや設定変更を行うと、そのようなレビューにある事はなくなります。また、入ってきた音声をその場で音声変換して流してくれるので遅延がほとんどありません。これは自然な会話を行ううえでとても楽だといえます。

マイクは、SHURE社のSVXワイヤレスマイクシステムでコンデンサマイクのヘッドセットを使っています、本来はスポーツジムとかでインストラクターが使うような利用シーンが想定されているようですが、固定物と自分を極力コードでつなぎたくないのでワイヤレスが前提です。
マイクは質の良いものを選んだほうがよさそうです。マイクが声のすべてを決めると思ってよいと思います。一般的にコンデンサマイクは扱いが面倒なんですが小さな声も拾う感度のよさがありますので家に他の人がいるような環境でも安心かもしれません。このマイクシステムは、UHFの電波でマイクからワイヤレスユニットに音声を伝えます。Bluetoothなどの電波が飛び交う環境では周波数帯が異なる電波を使うのがノイズ低減に良いかもと思いました(しらんけど)、電池式なので充電が切れるというリスクをなくせます(エコじゃないけど、即交換できるので安心)

VT-4の設定は、フォルマウントが+2とピッチが+1.5くらいです…
あるかないか、くらいにわずかにリバーブかけて、マイルドにしています。
これはインプットされる声、どんな声になりたいのか、にもよりますのでまったく参考にならない情報だと思います^^; 

以上です、この記事面白いなと思いましたら、ぜひ”スキ”をぽちっとしていただけるとうれしいです。
ーー

この記事が気に入ったらサポートをしてみませんか?