AIは音楽を変えるか? リアルタイムの音色合成/音響処理を可能にするAIプラグイン・プラットフォーム『Neutone』の紹介

2022年5月27日 15:47

2021年の初頭。私は、人工知能(AI)を用いた人間の創造性の拡張の可能性について説く『創るためのAI—機械と創造性のはてしない物語』を上梓しました。この本で、AIは単なる人の模倣ではなく新しいアイディアを与えてくれる存在として描かれています。中でも、自分が最も興味がある表現領域=音楽におけるAIの活用や新しい音楽の可能性について、自分でも意識しないうちに一番多くのページを割いていました。私自身もこれまでAI音楽生成を用いた音楽作品やパフォーマンスなどを実践しています。

AIは音楽を変えたか？

一方で、AIの社会活用が進む中で、実際にAIがどのように音楽を変えたでしょうか。マスタリング作業やノイズの除去といった領域でAIの活用をうたう商品は増えていますが、AIを使って新しい音楽表現やジャンルが生まれたといった事例は寡聞にしてまだ聞いたことがありません。実際、AI作曲ツールや作曲サポートツールがアーティストに、いかに使われていない/使えないかという論文があるくらいです (現在人気のある作詞支援AIシステムなどはその例外かもしれません)。

AI音楽ソフトウェアの利用経験に関するサーベイ。緑色が「使ったことがない」
Knotts, and Collins. n.d. “A Survey on the Uptake of Music AI Software.” Conference on New Interfaces for Musical Expression.

なぜAIが創作活動の本質的な部分に使われないのか。

AIに対する偏見や思い込み(AI=単なる人の模倣/自分の領分を侵食されたくない)がまだ強いのは間違い無いでしょう。それ以外にも、現在あるAI音楽ツールの大半が、その利用にプログラミング/AIの知識がいるようなものか、よくパッケージされていてすぐに使えるが自由度が低い(=アーティストが思うように誤用できない)ものの両極端だからではないか、という点はこの記事(AI研究と音楽表現 - テクノロジーの「誤用」をめぐって)でも問題視した通りです。

もう一つポイントをあげるとしたら、これまでAIのサポートが音符の領域、すなわちMIDIの生成や編集に終止してきたことが影響しているように思います。深層学習と音楽についての記事でも書いたように、学習と推論(生成)の計算コストの大きさゆえに、AIを用いて音楽のオーディオの信号を直接扱うことは、これまでかなり難しいとされてきました。それゆえ、より処理が軽くかつデータが構造化されている音符/MIDIの領域で考えるのが普通でした(後で述べるような例外も)。

MIDI or オーディオ?

しかし、音楽の歴史を振り返ると、新しい音楽表現は音符レベルの構造の変化ではなく、新しい音色から生まれてきた場合の方が多いことに気づきます(少なくともここ50年くらいは特に)。古くは鉄鋼技術の進歩が、ピアノという音量が大きく音域の広い楽器の誕生につながり、(我々にとっての)クラシック音楽が大きく進展したという例しかり、TR-808のキックの低音がドラムンベースやダブステップの誕生につながった例など、テルミンやモーグのシンセ音、ギターアンプのフィードバック、ターンテーブルでのスクラッチ、... 新しい音楽ジャンルを生み出した新しい音色の例はいくらでも挙げることができそうです。

シンボルレベルで音楽を扱うところから進んで、音響レベルでの処理、聞いたことがないような音色の合成、オーディオ・エフェクトなどが、自由/気楽に使えるようなかたちでアーティストの手元に届いた時に、AIを用いた音楽制作が新しいフェーズに入るのではないか。AIと音楽に関わるプロジェクトを進める中で、私が直感的に考えていることです。

一方で、OpenAI Jukeboxのように、楽曲を波形としてまるっと生成するようなモデルも既に存在しています。ただし、Jukeboxのモデルの学習には数百台のGPUが必要な上に、一曲を生成するのに10数時間もかかるため、とてもアーティストが使えるような代物ではありませんでした。そもそも前述のようにボタン一つで曲が生成されるようなシステムは求めていないでしょうし、そうしたシステムはあくまで過去の音楽のスタイルの模倣であり、そこから新しい表現が生まれてくることは考えにくいともいえます。

AIを用いたリアルタイム・オーディオ処理の登場

ところが、2020年以降、風向きが変わってきました。少しずつ深層学習ベースのオーディオの処理の技術が進みつつあるのを感じています。特定の楽器の音色を学習し、入力音を別の楽器の音色に変換する、Google MagentaチームのDDSP(Deffirentiable Digital Signal Processing)の研究などが代表的な例です。特に2021年後半から今年に入って、オーディオのリアルタイム処理を可能にする深層学習モデルの登場が目を惹きます。まさに、AIによる新しい音色やエフェクトを創作に現場に届ける、そんな可能性が見えてきました (以下のビデオはAIリアルタイムオーディオ処理の例)。

ところが... 現実はというとなかなかまだそうは簡単にはいきません。AI研究者はもちろんプログラミングができますが、エンジニアではありません。 PythonでAIモデルを学習することはできても、それをアーティストが使いやすいかたちでパッケージ化するのに必要なスキル(や時間)も持ち合わせていないケースがほとんどです。

もしアーティストがそうした最新のモデルを使いたいと思ったら... (Pythonを学ぶこと、GPUマシンの環境をセットアップすることなどは一旦無視したとしても) PythonでAIモデルを動かして、合成した音やエフェクトをかけた音をファイルに保存する → DAWにロードして制作中の曲に合うかどうかを確認する → あわなければ...AIの入力を変更して新しいファイルを書き出す → DAWにロードして... を繰り返す必要があります。トライアル&エラーを繰り返す音楽制作の現場を考えると、とても現実的とは言えないでしょう。

Neutone — AI audio plugin & community: Bridging the gap between AI research and creativity

そこで... Qosmoとして今回発表した「Neutone」の登場です！

NeutoneはAI、特に深層学習/ニューラルネットワークベースのリアルタイム音響処理モデルをホストするオーディオ・プラグインのプラットフォームとその開発コミュニティです。

具体的にはAbleton LiveやLogic ProのようなDAWソフトウェア上で動作するVST3/AudioUnitのプラグインと、Neutoneサーバ上に公開されたAIモデルのレポジトリから構成されます。AIのモデルごとに複数のプラグインをホストする必要はありません。インストールしたNeutoneプラグインをDAWにロードすると、サーバ上のモデルの一覧が表示さます。プラグインを利用するアーティストはこのモデルのリストから選んでダウンロードするだけで、最新のAIモデルを試すことができます。(AI/機械学習エンジニアの方には、Hugging FaceやGradio.appのVST3/AU版というと伝わりやすいかもしれません。)

一方、AI研究者は、慣れたPython環境上でNeutone SDKを使って、自分が学習したAIモデルをラップして、VST3/AUのプラグインとしてNeutoneのサーバで公開できます。C++やJUCEを使ったプラグイン開発は必要ありません! こうして、研究者は自分のモデルに対して、アーティストからのフィードバックを得ることができるわけです。将来的にはモデルの学習そのものをNeutoneのサーバで簡単に行えるようにするといったことも考えています(上の図のWebサイト ver2)。

NYベースを中心に活動を続け、Q-Tipやロバート・グラスパーといった錚々たるアーティストとも親交が厚い、JazzミュージシャンBIGYUKIさんが、Neutoneのベータ版を試すところ。音色変換のRAVEモデルを使って、ピアノの音を声やドラムの音に変換しています。

Neutoneが描く未来像

前述したように、AIモデルを音楽制作に使いたいと考えた場合、これまでは、Pythonでモデルを動かす→音を書き出す→DAWにロードして視聴→Pythonに戻ってパラメータを調整→再度書き出す...を繰り返す必要がありました。Neutoneは、このフィードバック・ループを一気に縮めるだけでなく、研究者とアーティストの間でのアイデアのフィードバック・ループを縮めることにも貢献できると信じています。

Pythonの世界とDAWの世界、研究者やエンジニアの世界とアーティストの世界をシームレスにつなげることで、AIを用いた新しいサウンドや音楽の創造に寄与する。

Neutoneのビジョン

AIと表現に関して、このところビジュアル表現の方が音楽よりもずっと先に進んでしまっている感(OpenAI DALL-EやGoogle Imagen)がありますが、技術的な動向だけでなく、音楽の場合、アーティストやクリエイターがAIモデルを使うための敷居が高すぎたという点も見逃せないと思います。なんとかしてこのギャップを埋めたい... 新しい音(New tone)を作りたい... そんな想いでスタートしたプロジェクトです。

AI研究者もアーティストも「カッコいい音楽を!」「誰も聴いたことがないような新しい音楽を!」という望みは一つです。 To set the tone for the new era of music. 研究者とアーティストの健全なコミュニティを育むことで、新しい音楽の基調を打ち出す、それがNeutoneの究極の目標です。

NeutoneはAIモデルをホストするためのプラットフォームを提供しますが、肝心のAIモデルはAI音楽コミュニティの皆さんと作っていくものだと考えています。特にAIモデルの開発に興味のある研究者・エンジニアやテストに興味があるアーティストの方々は、ぜひこちらのDiscordにご参加ください。中央が白くポッカリ空いたNeutoneのロゴ。みなさんと一緒に真ん中を埋めていきたいと思います。

CREDIT
Andrew Fyfe - Tech Lead, Plugin and Architecture
Robin Jungers - Tech Lead, Plugin Front-end
Naotake Masuda - Machine Learning
Christopher Mitcheltree - Machine Learning
Akira Shibata - Project Direction
Bogdan Teleaga - Back-end
Nao Tokui - Concept / Tech Lead, Machine Learning
Alvaro Arregui (Nuevo.Studio) - Plugin Design
Takashi Kamada (spfdesign Inc.) - Web Design & Development

この記事が気に入ったらサポートをしてみませんか？