「初音ミクという福音」(再録)

 「シンセサイザーが人間の声で喋る」「メロディーを歌う」というテーマは、実は70年代からの多重録音少年が描いていた“未来の夢”だった。さまざまな楽器をたった1台で再現できる“模倣楽器”としてメディアで紹介されていたシンセサイザーだが、民生機のモノフォニックの時代は既成楽器の代用品にはとても及ばず、アマチュアには付属のマニュアルに書かれた「蒸気機関車の音」「犬、猫の鳴き声」を再現して溜飲を下げるぐらいが関の山。つまりそのぶん、楽器より自然界の音を模倣するという行為のほうが、当時のアマチュア・シンセストにとって身近な体験だった。

 シンセサイザーに付属していたチュートリアルには、「あー」「うー」といった人声の模倣のセッティング・チャートも紹介されていた。冨田勲『惑星』に登場する宇宙から交信される“パピプペ親父”の声が、VCFのフィルターの開閉という単純な原理によって作られていることも、だから僕らは知っていた。漫談トリオの横山ホットブラザーズが、チョーキングなどの奏法によって「お前はア・ホ・か?」とギターに言わせる芸当と同じ、いかにも人が喋っているような声色を真似ただけのもの。原理を知っているからこそ、シンセサイザーに「言葉」を喋らせて歌わせることなど絵空事であることも、僕らの間では了解事項だったのだ。クラフトワークやYMOが使っている、ヴォコーダーという装置も一種のフィルターの集積体で、再現できるのはせいぜい母音のみ。「TOKIO!」という「テクノポリス」の冒頭のマニュフェストの声さえ、歌詞カードによる刷り込みで我々はそう理解していただけ。だからこそ、今世紀に入ってコンシューマー向けソフトしてVOCALOIDが登場したことの衝撃は大きかった。僕らはすでに「SFが描いた未来」の時代を生きているのだ。

 音声合成によって言葉を話す、というSF的ヴィジョンが最初に実用化の端緒に付いたのは、シンセサイザーが誕生する以前の50年代。電信電話の発明者グラハム・ベルがニューヨークに構えていた、ベル研究所で誕生したPCM(パルス・コード・モジュレーション)の発明がそのルーツにあたる。通信において、中継器の音声増幅によって遠隔地に音を伝えていたアナログ時代は、おのずとノイズも増幅されて、音声の質自体にロスが生じることは避けられなかった。ここの行動学センターの研究者だったマックス・マシューズ博士は、ロスレスな伝達方式として、音声をA/Dコンバータでエンコードしてデジタル符号として送信し、受け手がD/A変換でデコードして原音を忠実に再現するという、PCMの原理を発明する。今日、CDなどで使われている記録方式もこれで、音声の磁気記録ではなく、データ化によってメモリに蓄積できるようになった。これが以下、説明する技術すべての大原則となっているものだ。

 ベル研究所は大手電機メーカー、ウエスタン・エレクトリックの開発セクションのひとつだが、当時ライバル関係にあったRCAでも、同時期からコンピュータを使った音声解析の研究が行われていた。そして54年、RCAミュージック・シンセサイザー(マークII)が完成する。「シンセサイザー」と銘打っているが、後に実用化される電子楽器のそれとは異なる巨大な専用コンピュータで、バイナリコード書かれたパンチ・カードを読み込ませて、4声のアンサンブルの演奏が可能だった。発声原理は、「自然界にあるあらゆる音はサイン波の組み合わせによって作られている」という、物理学者フーリエの定理を元にしたもの。録音された音声を解析し、器楽演奏をそのままサイン波の合成で忠実に再現するもので、観客を集めたテストでは、被験者の1/4が原音と区別が付かなかったという見事な成果を上げている。ここのごく初期のテストで、往年の名歌手シャリピアンの歌声を合成した記録が残っており、これが合成人声のもっとも古いケースの一つと言っていいだろう。

 ただし、RCAの装置は1曲のために1年がかりで、プログラムを機械語で書く時代のもの。入力はパンチカードのみで、鍵盤のようなインターフェイスもなく、楽譜に基づいた現代のMIDIのように、音楽家が扱えるものではなかった。同様の原理でコンピュータをオシレーターとして用い、自然音を模倣することの第一歩を築いたのは、やはりライバル関係にあったベル研究所のマックス・マシューズである。彼はIBMの汎用コンピュータを使い、簡単なプログラムで打ち込んだ文字を音声で喋らせる「ミュージックV」というソフトウエアを68年に開発。これは、楽器の共鳴音、打鍵時のノイズ、口の開閉などの音声の発声原理をコンピュータでエミュレートして音声化する、「フィジカル・モデリング」という方式を用いており、単純なサイン波から、楽器音、人間の声まで自由に合成できた。このうち、タイプした文字を喋らせる技術の研究は、視覚障害者向けのバリアフリー技術開発援助の助成金制度などもあって、特にアメリカで盛んに行われることに。やがてパソコンの進化とともに基幹技術として、今日どんな標準的なパソコンでも利用できるような当たり前のものとなった。

 マッキントッシュに搭載されていたMacinTalkのように、最初に実用化されていた音声読み上げソフトは、「フィジカル・モデリング」を採用。その発声エンジンを使ってメロディーを歌わせる「VocalWriter」などのシーケンサーも早期にリリースされていた。入力方式は現在と変わらず、メロディーを入力して歌詞を当てはめて歌わせる方式だが、内蔵データとなるリファレンスは膨大なもので、その開発も期間を要し、またパラメータも膨大になるために、ユーザーライクな操作感は得られなかった。そしてなにより、「フィジカル・モデリング」方式の時代は子音の表現に限界があり、明瞭な言葉を歌わせるに至らなかった。こうした「フィジカル・モデリング」の限界から、膨大なサンプリング音声を読み出す方式に根幹から発想を置き換えたのが、今日の“VOCALOID”である。

 ここで、音源モジュールの歴史を振り返っておきたい。80年代初頭にパソコン用のDTM専用音源として、楽器メーカーから数々のモジュールが発売された。だが当時は、アナログ・シンセサイザーやFM音源による音声合成の時代。通信カラオケで使われているような、小さなシンセサイザー・チップを箱に詰め、それをソフトウエアを立ち上げてエディットするもので、「ピアノ」「ヴァイオリン」などのプリセット音も、似てはいるが現実音とは別もののシンセサイザーの合成音だった。そのうち、E-muのVintage Keysなど、PCM波形を内蔵して、限りなくピアノ、ヴァイオリンに近い音が1台で鳴らせる新世代モジュールとして登場する。しかし当時の製品は、せいぜい5M程度の波形内蔵ROMと、それを読み出して鳴らす256kbyte程度のメモリしか持たなかった。ピアノの打鍵時の衝撃音と、中間部をサスティン音は短いサンプルをループさせて組み合わせ、あたかも楽器そのもののような音を、小さなメモリで無理矢理再現していたのだ。それが今日、スタインウェイのピアノの全鍵盤を、あらゆるタッチで録音してソフトウエア上で読み出しできる、オリジナルそのものの音源ソフトへと、ヴァーチャル楽器は進化した。これはひとえに、メモリ、ハードディスクの廉価化に理由がある。ここでは音源モジュールの役割は、単なるサンプル・プレーヤー(サンプル・ブラウザ)でしかない。「フィジカル・モデリング」から“VOCALOID”への変遷は、つまりエンジンよりライブラリそのものが主体となった商品への意識転換である。

 そしてもうひとつ、“VOCALOID”のサンプリング方式によって飛躍的に進化したのが日本語への対応だ。実はそれまでも、人声でメロディーを歌わせるコンシューマー向けソフトは存在した。アップルII用の「ECHOII」というPCカードと専用プログラムや、先に紹介したMacinTalkに歌わせる「Vocal Writer」などである。いずれも英語圏で開発されたソフトだが、「フィジカル・モデリング」方式は人間のあらゆる発声原理をベースにしたものゆえ、白人、黒人、アジア人の発声原理が違うわけではないように、そのフォルマントの構造を掴めば日本語で歌わせることもできた。実は日本でも、60年代から日立製作所などでコンピュータ・ヴォイスの研究が行われており、海外から輸入された技術を持ち込んで、大型コンピュータに坂本九「上を向いて歩こう」を歌わせたテープなどが残されている。しかし、70年の日本万国博を境に、大手企業のこうしたハイエンド研究は行われなくなっていく。85年、つくば万博の際にキャラクターのコスモ星丸が喋っていたのも、その正体はアメリカ産のアップルIIの音。日本が世界に向けた技術発信のイベントでありながら、日本のメーカーには当時、合成人声のためのコンシューマ・ソフトがなかったのだ。つまりヤマハが開発した“VOCALOID”は、久々に現れた「日本語で歌わせるためのソフト」となるものだったのだ。

 “VOCALOID”のライセンスを持つ同社がプロジェクトに取りかかったのは2000年。実はそれ以前に、ヤマハの音源モジュール「XG」専用に作られた、「フィジカル・モデリング」によって人声にメロディーを歌わせる「PLG100-SG」というオプションのPCカードがあった。一種の“ハードウエア版VOCALOID”であるが、いわばこれのPCソフト移植の流れから、プロジェクトがスタートしている。“フォルマント・シンギング”と銘打たれたフィジカル・モデリング方式の音は、今聴いても母音の再現に止まり、すべてが「まみむめも」などの鼻声に聞こえるもの。ここからサンプリング方式に構造自体を置き換えたのは、ヤマハがサンプリング・グランドなどのヴァーチャル・アコースティック研究の先駆メーカーだったことも理由にあるだろう。荒っぽい捉え方をすれば、それまでの発声原理をベースにした物理的な考え方から、50音と濁音をサンプリングしたデータを、入力した文章通りに読み出してモーフィングのようにナチュラルに言葉に繋いでいくというような、フラットな考え方への大きな転換である。開発者の剣持秀紀氏のインタビュー(※1)によると、サンプリング・データの作成プロセスは、「呪文のような歌詞とメロディー」をシンガーに歌わせて、その音素(基となる声)をそこから抜粋してデータを作っていくという。日本語は「子音→母音→子音→母音」に固定されているため、英語のような「子音→子音→母音」のような配列がないために、おのずと組み合わせは限定される。通常1音階につき英語なら2500の音素が必要なのに対して、日本語だと500あればいいらしい。自らの声をVOCALOID化した「がくっぽいど」をリリースしているGacktのインタビュー(※2)によれば、1日5時間×2日で全行程の収録が終わったというから、かつての「フィジカル・モデリング」時代の開発ペースと比べて大きな飛躍がある。この収録時間の短縮が、おそらく廉価商品を実現させ、人気アイドル声優の声の商品化というユニークなアイデアを生む土台となっているのだ。日本語に特化した「初音ミク」は、おそらくフィジカル・モデリング時代なら技術的には困難だっただろう、「萌え声」の実用化をも達成してしまった。よく「初音ミクに英詞を歌わせてもなかなかうまくいかない」との声を聞くが、それもそのはず。「初音ミク」には日本語で歌うためのデータしかインプットされていないため、多くのリアルな日本人のように「L」と「R」を使い分けるような英語発音力がないのである。

 初代“VOCALOID”は、従来のソフトのような大きめのパッケージで売られ、その価格も他の音楽ソフト同様高価だった。パッケージ時代からその技術の高さに驚ろかされつつも、しかし「じゃあこれは一体、何のために必要なのか?」という一点で、プロ・スタジオに普及することはなかった。“VOCALOID2”の国内初商品化となった「初音ミク」で、初めてDVD風のトールケースに収められ、2万円以下で発売されたことに大きな意味があった。ニコニコ動画などを覗くと、カラオケをバックにものまね歌唱を競わせたり、自分宛のラブレターやエッチな小説を読ませるなど、バカバカしい使われ方もされているが、つまり彼らが「初音ミク」というソフトに、そんな新しい価値を吹き込んだのだ。例えば、フランスの国営芸術機関IRCAMが発明した“MAX/MSP”などのハイエンドの技術を、アトム・ハートらがパンクの魂をもって使いこなしているように、ワンアイデアで暴力的に使うことができる飛躍こそが、“VOCALOID”という新しいツールの存在証明となったのである。

 冒頭で書いた通り、かつての多重録音少年たちにとって「シンセサイザーが人間の声で喋る」「メロディーを歌う」は“未来の夢”であった。DTMによって普及した打ち込み手法は、譜面が読めなくても、楽器が弾けなくても、自分の脳内にあるサウンドを再現するための完璧な手段となりえた。しかし、どんなにプロはだしの技術を持ってしても、インストゥルメンタル音楽ではポピュラリティを持ち得るのに限界があった。アマチュア音楽雑誌のメンバー公募欄に、ヴォーカル募集の告知をよく見かけたのを覚えている人も多いだろう。イギリスのヤズーを規範とした、打ち込み担当とソウルフルな女性ヴォーカルの2人組のユニットが、あの時代に数多く登場したのは、やはり「声の魅力」こそがポップスを支えていることを理解していたからだ。いわば“VOCALOID”は、ポップ・メーカーを志す多重録音少年たちにとって、黄金のツールとなりえるものだ。実際、アイドル仕事などで譜面の読めないシンガーにデモテープをわたす際に、これまでわざわざ頼んで来てもらい代理ヴォーカルに歌わせていたものを、VOCALOIDに歌わせて、作曲家の細やかなニュアンスを伝達するというクリエイターも急激に増えてきているという。

 余談だが、最近、晴海のコミケットなどの会場で、「同人ソフト」なるものが売られているのはご存じか。コンピュータと廉価なアプリによって、誰でも映画、アニメが作れるようになったことで、商品として流通できないような“個性的”な映像作品が、DVD-Rなどのメディアで同人誌のように売られているのだという。なかにはシンプルなFLASHの技術だけで見事なアダルト・ソフトを作る職人もおり、ストーリー、動画はおろか、音楽、声優までも自らがこなしているらしい。映画の魔力に取り憑かれ、映像、音楽すべてを自らが手掛けた、チャーリー・チャップリンやウォルト・ディズニーさながらのエピソードである。しかし、さすがに女性キャラが発するあえぎ声だけは、「ヴォーカル募集」のメンバー公募のようにはいかないようで、作者本人の慢心の演技力で、女形の裏声で「あはん」「うふん」と言わせているものがあるらしく笑ってしまう。彼ら、チャップリンやディズニーの再来たちにとっても、「初音ミク」を初めとするVOCALOIDは、 福音をもたらすツールになるかもしれない。

 (了)

※1......『the VOCALOID CV O1 初音ミク』(寺島情報企画)所収インタビューより
※2......『初音ミク・鏡音リン・レン☆ボーカロイドを楽しもう 』(ヤマハミュージックメディア)所収インタビューより

(『ユリイカ2008年12月臨時増刊号 総特集=初音ミク ネットに舞い降りた天使』より再録)

この記事が気に入ったらサポートをしてみませんか?