【脳波から言葉を学習する】AIで半身不随の女性の声を取り戻したぞ

2023年9月27日 13:09

人工知能が半身不随の女性に声を取り戻す技術の背後にある驚くべき物語

2023年5月22日、カリフォルニア州エル・セリートで、スタンフォード大学医療センターの研究チームが、音声神経人工器官を使用して半身不随の女性の脳信号をアバターの音声と顔の動きに変換する画期的な実験を行いました。この技術の導入により、声を失った患者たちがコミュニケーションを回復し、日常生活を取り戻す可能性が開かれました。この驚くべき物語の詳細をご紹介します。

パット・ベネットの苦境

物語の主人公、パット・ベネットさんは、元々は人事部門の責任者であり、馬術競技のジョギングも楽しむスポーツ愛好者でした。しかし、2012年に彼女は筋萎縮性側索硬化症（ALS）と診断され、一生の大半を声を失う苦痛の中で過ごすことになりました。

ALSは一般的に、腕や脚、手や指などの末梢部位から症状が現れる疾患ですが、ベネットさんの場合、異例の病態が始まりました。彼女の病気は脳幹から発症し、特に唇、舌、喉頭、顎の筋肉を使うことができなくなり、発話のために必要な音素（音声の最小単位）をはっきりと発音することができなくなりました。

ベネットさんの脳は言葉を生成する指示を出すことはできますが、彼女の筋肉はそれを実行できなくなっていました。これは、彼女が思考する言葉を声に変えるプロセスが途絶えたことを意味し、彼女にとって大きな苦痛でした。

AIが登場する瞬間

ベネットさんのようなALS患者にとって、コミュニケーションの損失は孤立感や鬱など、身体的な健康だけでなく精神的な健康にも深刻な影響を及ぼします。しかし、ここでスタンフォード大学医療センターが登場し、新たな可能性を切り開くべく驚くべき技術を開発しました。

まず、研究者たちは、AIを使用して音声生成のプロセスを再構築しました。通常、音声認識技術は単語全体を認識するために訓練されますが、ベネットさんの場合、言葉を形成する音素に焦点を当てました。音素は、話し言葉を形成する音声の最小単位であり、例えば、「こんにちは」は「HH」、「AH」、「L」、「OW」という4つの音素から成り立っています。

このアプローチにより、コンピューターシステムは英語の単語を解読するために39の音素のみを学び、これによってシステムの精度が向上し、処理速度が3倍速くなりました。この進歩は、音声認識技術における革命的な進展であり、声を失った患者に新たな希望をもたらしました。

手術とトレーニング

技術が開発されたら、次は実際の手術とトレーニングプロセスが始まりました。2022年3月29日、スタンフォード大学医学部の神経外科医たちは、ベネットさんの脳の表面に2つの小さなセンサーを埋め込みました。これらのセンサーは、音声生成に関与する2つの異なる領域に配置され、皮質内ブレイン・コンピューター・インターフェイス（iBCI）の一部として機能します。これに最先端のデコーディング・ソフトウェアを組み合わせることで、脳の活動をスクリーン上の言葉に変換することが可能となりました。

手術から約1ヵ月後、スタンフォード大学の科学者チームは、ベネットさんの発話を解釈するためのソフトウェアを訓練するための週2回の研究セッションを開始しました。4ヵ月後、ベネットさんは1分間に62語という速さでコンピューター画面上の言葉に変換する

ことができるようになりました。

ベネットさんはこの成功について、「この最初の結果は、このコンセプトを証明するものであり、やがては技術が追いつき、話すことができない人々にも簡単に利用できるようになるだろう」と述べました。彼女はさらに、「言葉を発しない人々にとって、これは大きな世界とのつながりを維持できることを意味し、おそらく仕事を続け、友人や家族との関係を維持できるだろう」と付け加えました。

技術の発展

ベネットさんの成功は、彼女が発話する速度が1分間におよそ160ワードに近づいているということで、非常に印象的です。外科医のジェイミー・ヘンダーソン医学博士は、「我々は、脳表面の非常に小さな領域からの活動を記録することによって、意図されたスピーチを解読することができることを示しました」と述べました。

ChatGPTより作成

ALSといういまだに効果的な治療法が見つからない病気は、国内では2021年の段階で1万人弱いるという。手足が動かなくなり、やがて心臓も止まってしまう難病。脳は正常であるが、脊髄がおかしくなってしまうから、手足は動かなくなり、しゃべることも飲み込むことも難しくなってしまう。今回のケースは発声器官が動かなくなってしまう珍しいケースだった。

いずれにせよ、身体が動かなくなってしまうというのが恐ろしいと思うのは、いつもできたことができなくなってしまうこと。それは、脳梗塞の後遺症による片麻痺でも同じことがいえる。

最近開発が進んでいるBCI(ブレインコンピュータインターフェース)によって、脳波から声を拾う。なんどもなんどもなんどもAIは学び、そしてすこしずつ言葉を拾い上げた。

AIは熱心な学生でもある。学べば決して忘れない。いずれは様々な形で声を失った人たちにも、言の葉をつないでくれるだろう。

ネットの配信者の声を読み上げて、字幕にしてくれるソフトがあるけれども、いずれは脳波から言葉を拾って字幕で表示するライバーも現れるに違いない。

この記事が気に入ったらサポートをしてみませんか？