見出し画像

耳が信じられなくなる日:「セマンティックヒアリング」技術の秘密

皆さんに、近い将来、各種ヘッドフォン製品で広く使用される新技術「セマンティックヒアリング」について紹介します。


AIノイズ淘汰


これは、音声ノイズキャンセリングの大きな進歩です。この進歩はAIの発展と切っても切れない関係にあり、今後のオーディオ製品の再生効果を大幅に向上させるだけでなく、ノイズキャンセリングヘッドフォンや補聴器の効果を大幅に改善し、さらには公共の場の騒音環境を大幅に改善することにもつながります。

新技術の紹介に先立ち、これまでの2世代のノイズ処理がどのように行われてきたかを見てみましょう。

楊振寧氏は2019年以前、毎年数回の公開講演を行い、その後には質疑応答のセッションがありました。このセッションの効果には、2017年という分水嶺があります。それ以前の講演の効果は後のものに比べて劣っており、主な理由は彼の高齢による聴覚障害です。

過去の体験


2017年以前は、観客がマイクを使って質問し、楊氏が聞き取れなかったことを示し、その後観客が大声で繰り返し、それでも聞き取れず、最終的には舞台上で耳元で繰り返す必要がありました。その後、呼吸器系の病気の感染を考慮して、質問者が舞台に上がることはなくなり、司会者が楊氏の耳元で繰り返すようになりました。そのため、このような質疑応答のセッションはコミュニケーションの感覚が欠けていました。

新補聴器


しかし、2017年以降の講演では、楊氏はもはや他人に耳元で繰り返してもらう必要がなくなりました。それは、新しい補聴器を装着したからです。ある時は、質問によって舞台から7、8メートル離れた小さな学生と議論になりました。議論の内容は、大型加速器を現在建設すべきかどうかでした。

議論の内容も話題に値しますが、今回の焦点は音声なので、一旦置いておきます。楊氏は、自分の補聴器が音声アルゴリズムの改善の成果であると述べ、物理学を学ぶ後輩たちにも、音声アルゴリズムの改善のような、実用的な価値のあるアプリケーションに注目することを望んでいます。

実際、2017年以前も楊氏は補聴器を使用していましたが、当時はまだ古典的な音声アルゴリズムを使用していました。多くの人が私に質問してきましたが、どのブランド、どのモデルの補聴器が新しいアルゴリズムを使用しているのか、またはどのようなアルゴリズムを使用しているのかについては、詳細はわかりません。実際には、2017年に既に量産製品で使用されていた技術であり、製品性能を大幅に向上させる技術は、6、7年後の今日にはすでに広く普及しており、使用していない人は時代遅れになるところまで来ています。

したがって、現在の補聴器のトップ5ブランドであるPhonak(フォナック)、Oticon(オーティコン)、Bernafon(ベルナフォン)、Widex(ワイデックス)、Signia(シグニア)の中高級モデルは、確実に新しいアルゴリズムを使用しています。

このアルゴリズムはノイズキャンセリングヘッドフォンにも同様に使用されています。なぜなら、ノイズキャンセリングヘッドフォンは実際には補聴器の反対の応用だからです。

旧ノイズ除去


最初のノイズキャンセリングは手作業で行われ、原理は様々な騒音をサンプリングして分析することでした。

騒音と言えば、典型的なのはシャシャシャという白ノイズやブーンブーンという振動ノイズ、専門用語で「レッドノイズ」または「ブラウンノイズ」と呼ばれるものです。また、電気機器のノイズ、つまり電子機器の電磁干渉が発するチリチリとした音や、「ハーモニック歪み」、これは原信号の整数倍のノイズが発生することが多いです。

各種ノイズの例を分析した後、最も除去しやすいのは100Hz以下の振動周波数を持つ低周波ノイズで、これを除去するとノイズキャンセリングの効果が最も顕著になります。なぜなら、人間にとって最も有用で情報豊富な音声は、一般に100Hzから1000Hzの範囲に集中しているからです。

次に、3000Hz以上の周波数のノイズを除去します。まず、この範囲の情報量はすでに減少しているため、強度を適度に下げることができます。具体的な方法はフィルターを使用することで、例えば20Hzから100Hzの音の強度を95%カットし、3000Hz以上の音声信号を90%カットします。カラオケでこの原理の逆を利用していますが、楽器の音にも人の声と重なる多くの周波数が含まれているため、単に人声の周波数範囲のすべての音を低減すると、伴奏も非常にくぐもった音になります。

その時代のノイズキャンセリングや補聴器は、人の経験に基づいて少しずつ調整し、各周波数スペクトラムの音をどれだけ下げれば、聞き手にとって最適な効果が得られるかを探る方法に頼っていました。しかし、この方法は理想的ではありませんでした。

深層学習化


次世代の技術は、楊振寧氏が言及したアルゴリズム、つまり深層ニューラルネットワークです。

深層ニューラルネットワークは最初、高度な分類に使用される分類器として用いられました。例えば、毛皮で覆われた猫と犬の違いは何か?人間は一目で区別できますが、以前の機械ではできませんでしたが、深層ニューラルネットワークなら可能です。

収集したデータをベクトルに変換し、ベクトル間で乗算を繰り返し、ベクトル間の類似度を見つけ、多層ニューラルネットワークを通じて特徴を抽出することで、より多くの層があればあるほど、特徴の抽出が正確になります。このようなトレーニングによって、日常生活のさまざまな典型的なノイズ特徴が抽出されます。

これらの特徴は、訓練済みのモデルに格納されます。ノイズキャンセリングヘッドフォンが動作するとき、複数のマイクが外部のノイズを収集し、そのデータをモデルに入力します。モデルからの出力は、要求に応じてそれらのノイズをすでに「抜き取った」結果になります。その後、プロセッサーが発声ユニットに指示して、「抜き取った」ノイズと同じ音量で、しかし位相が正確に180°逆の音を発生させます。そうすると、ほぼ同一で振動方向が逆の二つの波形が重なり合い、合成効果はゼロとなり、ノイズはこのようにして除去されます。

Sony(ソニー)とBose(ボーズ)はこの分野のエキスパートです。そのため、これら二つのブランドのノイズキャンセリングヘッドフォンは2014年に先駆けて突破し、一組につき数千円の価格で販売されました。しかし、6、7年後には、このようなアルゴリズムは業界内で広く知られる技術となり、競争は主にモデルの精細さにかかっています。その結果、今日300円で購入したノイズキャンセリングヘッドフォンの効果は、2014年に3500円で購入したものよりも良好です。

この世代の基盤の上に、必要とされない音を個別に取り出すことができます。これは多くのノイズキャンセリングヘッドフォンに搭載されている「透明モード」です。つまり、モデルのトレーニング時に、話す声の特徴も描き出し、出力時に強化するか、またはヘッドフォンの外側だけでなく、耳道内部にもマイクを設置して、聴神経に最も近い環境データを正確に収集し、血管の脈動による低周波ノイズさえもフィルタリングすることが可能です。

セマンティック処理


この発展の次の段階が「セマンティックヒアリング」です。このアルゴリズムは大まかには深層ニューラルネットワークに属していますが、その革新性は自己注意機構の使用にあります。

「セマンティックヒアリング」とは、簡単に言うと、音の意味に基づいて処理を区別し、それに応じて出力する技術です。例えば、ドアのノック音、掃除機の音、自動車のクラクション、赤ちゃんの泣き声、トイレの流れる音、ガラスが割れる音、雷鳴などです。前世代のノイズキャンセリングヘッドフォンでも様々なノイズを識別できると言われていますが、これほど具体的ではありませんでした。Sony 1000XM5ノイズキャンセリングイヤホンを着用していても、上階のリフォーム音は、弱まってはいるものの聞こえることがあります。しかし、セマンティックヒアリングヘッドフォンでは、このようなノイズを完全に遮断することができます。

数学的原理から言えば、前世代のノイズキャンセリング技術も同様に、このようなノイズを明確に特定して効果的に除去することは可能ですが、ノイズキャンセリングには遅延に対する厳しい要求があります。ノイズが発生してから50ミリ秒以内に反対の波形を重ねて正負を相殺できなければ、ノイズキャンセリングの効果は大幅に低下します。

そのため、第二世代の技術では、計算量とモデルの複雑さのバランスをとる必要がありました。特に今日では、有線ヘッドフォンがますます少なくなり、首にかけるタイプのイヤホンも少し見下されがちなため、バッテリー容量と計算量の制限がさらに厳しくなっています。その結果、前世代の深層ニューラルネットワークに基づくノイズキャンセリングモデルは、あまりに複雑にすることができませんでした。

しかし、セマンティックヒアリングでは、ChatGPTと同じTransformerモデルを使用しています。自己注意機構は、逐次的に音声シーケンスを処理する必要がある再帰的ニューラルネットワークとは異なり、シーケンス内のすべての要素を同時に処理できるため、計算効率が大幅に向上します。これにより、ノイズが発生してから処理が完了するまでの遅延を大幅に短縮でき、モデルはより多くのパラメータを考慮することができます。これらのパラメータは、先ほどの例で挙げたような非常に具体的な動きや静けさに関連しています。

理論上、もし彼女の小言が特に悩みの種であれば、その声をトレーニングデータに含めることで、今後は家が完全に静かになることでしょう。そして、これはセマンティックヒアリングノイズキャンセリングのさらなる利点です。つまり、このモデルはユーザーに微調整機能を提供することができます。

実証と展望


ワシントン大学の数名の音響科学者が、2023年11月に開催されたACMユーザーインターフェースソフトウェア技術会議で、彼らのセマンティックヒアリングの成果を披露しました。

では、会議でのデモンストレーションを聞いてみましょう。

最初のデモでは、iPhone11をLighting接続でヘッドフォンに接続し、データ供給と電力供給を行い、自宅で床を掃除するシーンがありました。そして、「ノック音を許可する」という音声コマンドを発しました。

これは比較的一般的なシナリオです。たとえば、掃除機の騒音が非常に大きく、配達員のノック音が聞こえない場合です。しばらくすると、ヘッドフォンでは掃除機が作動している音が聞こえ、その後ノイズキャンセリングがオンになり、突然静かになります。次に現れるノック音は、ノイズキャンセリング後に重ねられたもので、歪みはほとんどありませんが、掃除機の音はほぼ完全に消えています。

二番目のシナリオは、公園のベンチで録音されました。始めは環境音があり、微風の音や朝の運動をしている人たちの会話が聞こえます。指令は「鳥の鳴き声を残す」で、ノイズキャンセリングをオンにした瞬間、鳥の鳴き声だけが聞こえるようになります。

セマンティックヒアリングノイズキャンセリングの効果を感じるには、以下のリンクをクリックして、ヘッドフォンを着用してください。

「セマンティックヒアリング」ノイズキャンセリングの遅延はどうでしょうか?モデルの計算はiPhone11のチップのみを使用しており、遅延はわずか6.56ミリ秒です。双方のイヤホンでノイズキャンセリングを行うためには、2つのわずかに異なるノイズ源の信号を処理する必要があり、加えて、被験者がフィルタリングされていない環境音の信号の方向を聞き取ることができるようにする必要があります。そのため、最終的な結果がわずか6.56ミリ秒であることは、非常に優れていると言えます。

研究者たちは、双方のイヤホンでノイズキャンセリングを行った後、被験者が信号源の方向を判断する正確さもテストしました。50パーセンタイルの誤差は22.5°で、これは何の処理もしていない一般の人が音の方向を判断するのと大まかに類似しており、ノイズキャンセリング後の音が歪んでいないことを示しています。

もしノイズキャンセリングがiPhone11ではなく、将来的には様々なニューラル処理ユニットを搭載するであろうスマートフォンのチップを使用する場合、性能はさらに向上し、遅延はさらに低減されるでしょう。

さらに、彼らは運用量を削減し、現在のアクティブノイズキャンセリング技術と組み合わせる方法も試みました。これは、ノイズの除去には前世代のアクティブノイズキャンセリング技術を引き続き使用し、有用な信号の識別にはセマンティックヒアリングを強化する方法です。このアプローチは遅延をさらに低減し、計算量を削減する一方で、有用な信号の明瞭さを大幅に改善することができます。実際、この方向性は補聴器に非常に適しています。なぜなら、それらは非常に低い電力消費で長時間動作する必要があるからです。

同様に、微調整可能なモデルであるため、騒がしい公共の場所にいくつかのスピーカーを設置し、典型的なノイズを消去することも可能です。この場合、電力消費に関する要求はなく、モデルの計算量を適切に増やすことができます。例えば、飛行機や高速鉄道の客室に100個のマイクを設置し、リアルタイムでノイズキャンセリングを行うことができます。

そして、私たちは予見できます。今後5年間でノイズキャンセリングヘッドフォンや補聴器の効果はさらに大幅に向上するため、現在は高価な製品を購入する必要はありません。


この記事が気に入ったらサポートをしてみませんか?