音声文のニューラルデコーディングからの音声合成

2023年5月3日 18:27

発行：2019年4月24日
音声文のニューラルデコーディングからの音声合成

https://www.nature.com/articles/s41586-019-1119-1

ゴパラ・K・アヌマンチパリ、
ジョシュ・シャルティエ &
エドワード・F・チャン
Nature 568巻493-498ページ（2019年）この記事を引用しています。
73kアクセス
339件の引用
3071 Altmetric
メトリックス詳細
アブストラクト
神経活動を音声に変換する技術は、神経障害のためにコミュニケーションをとることができない人々にとって、大きな変化をもたらすでしょう。音声を話すには、声帯の調音器を非常に正確かつ迅速に多次元的に制御する必要があるため、神経活動から音声を復号することは困難である。そこで我々は、人間の皮質活動で符号化された運動表現と音表現を明示的に利用して、音声を合成する神経デコーダを設計しました。リカレントニューラルネットワークは、まず、直接記録された皮質活動を調音運動の表現にデコードし、次に、これらの表現を音声音響に変換する。閉じた語彙テストでは、聞き手は皮質活動から合成された音声を容易に識別し、書き写すことができた。中間の調音ダイナミクスは、限られたデータでもパフォーマンスを向上させた。デコードされた調音表現は話者間で高度に保存されており、デコーダーのコンポーネントを参加者間で転送することができた。さらに、デコーダは、参加者が無言で文章を模倣したときに音声を合成することができました。これらの結果は、音声神経補綴技術を用いて音声コミュニケーションを回復することの臨床的可能性を高めるものである。
このコンテンツは、購読コンテンツのプレビューです。
関連記事
本記事を引用しているオープンアクセス記事
自由に動くヒトの単一ニューロンおよび局所電位活動を閉ループで刺激・記録するためのウェアラブルプラットフォーム
ウロス・トパロビッチ
、サム・バークレイ
... デヤン・マルコビッチ
ネイチャー・ニューロサイエンスオープンアクセス 2023年2月20日
バイリンガルにおいて、交差する分散型ネットワークが異なる言語間の収束的言語機能を支える
庚秀杰（こうしゅうじ
郭萬桓
...馮建峰
コミュニケーションズ・バイオロジーオープンアクセス 2023年1月25日
脳波から音楽を神経で読み解く
イアン・ダリー
サイエンティフィック・リポーツオープンアクセス 2023年1月12日
アクセスオプション
所属機関を通じてのアクセス
日本のお客様のための購読情報
日本のお客様向けに専用サイトを開設しています。本誌の購読を希望される方は、natureasia.comへアクセスしてください。
natureasia.comにアクセスする
この記事のレンタル・購入
この記事だけを必要な分だけ入手することができる
$39.95
もっと詳しく
価格には、チェックアウト時に計算される地方税がかかる場合があります。
アクセスオプションの追加
ログイン
機関投資家向けサブスクリプションについてはこちら
よくあるご質問を見る
カスタマーサポートへのお問い合わせ
データの有無
本研究の成果を裏付けるデータは、ご要望に応じて対応する著者から入手可能です。
コードの入手方法
すべてのコードは、対応する著者に連絡すれば、非商業的な使用のために自由に入手することができます。
参考文献
Fager, S. K., Fried-Oken, M., Jakobs, T. & Beukelman, D. R. New and emerging access technologies for adults with complex communication needs and severe motor impairments: state of science. Augment. Altern. Commun. https://doi.org/10.1080/07434618.2018.1556730 (2019).
記事グーグルスカラ
Brumberg, J. S., Pitt, K. M., Mantie-Kozlowski, A. & Burnison, J. D. Brain-computer interfaces for augmentative and alternative communication: a tutorial. Am. J. Speech Lang. Pathol. 27, 1-12 (2018).
記事 Google Scholar
Pandarinath, C. et al. 皮質内ブレイン・コンピュータ・インターフェイスを用いた麻痺患者による高性能コミュニケーション eLife 6, e18554 (2017).
記事グーグルスカラ
Guenther, F. H. et al. A wireless brain-machine interface for real-time speech synthesis. PLoS ONE 4, e8218 (2009).
記事ADS Googleスカラー
Bocquelet, F., Hueber, T., Girin, L., Savariaux, C. & Yvert, B. ブレインコンピュータインターフェースのための調音ベースの音声合成装置のリアルタイム制御。PLOS Comput. Biol. 12, e1005119 (2016).
記事ADS Googleスカラー
Browman, C. P. & Goldstein, L. Articulatory phonology: an overview. Phonetica 49, 155-180 (1992).
記事CAS Google Scholar
Sadtler, P. T. et al. Neural constraints on learning. Nature 512, 423-426 (2014).
記事ADS CAS Google Scholar
Golub, M. D. et al. 神経再連携による学習。Nat. Neurosci. 21, 607-616 (2018).
記事CAS Googleスカラー
Graves, A. & Schmidhuber, J. 双方向LSTMと他のニューラルネットワークアーキテクチャによるフレームワイズ音素分類. Neural Netw. 18, 602-610 (2005).
論文 Google Scholar
Crone,N.E.ら、音声言語と手話における単語生成時の脳皮質ガンマ活動。Neurology 57, 2045-2053 (2001).
記事CAS Googleスカラー
Nourski, K. V. et al. ヒト聴覚皮質における音の識別：頭蓋内直接記録により明らかになった局所フィールド電位と高ガンマパワーの寄与の違い. Brain Lang. 148, 37-50 (2015).
記事グーグルスカラー
Pesaran, B. et al. Field Potential Recordingsを用いた大規模な脳のダイナミクスの調査：解析と解釈. Nat. Neurosci. 21, 903-919 (2018).
記事CAS Googleスカラー
Bouchard, K. E., Mesgarani, N., Johnson, K. & Chang, E. F. Human sensorimotor cortex for speech articulationの機能的組織。Nature 495, 327-332 (2013).
記事ADS CAS Google Scholar
Mesgarani, N., Cheung, C., Johnson, K. & Chang, E. F. Phonetic feature encoding in human superior temporal gyrus. Science 343, 1006-1010 (2014).
記事ADS CAS Google Scholar
フリンカー、A.ら、音声におけるブローカ野の役割の再定義。Proc. Natl Acad. Sci. USA 112, 2871-2875 (2015).
記事ADS CAS Google Scholar
Chartier, J., Anumanchipalli, G. K., Johnson, K. & Chang, E. F. Encoding of articulatory kinematic trajectories in human speech sensorimotor cortex. Neuron 98, 1042-1054 (2018).
記事CAS Googleスカラー
Mugler、E. M. et al. 前頭葉および下前頭回における調音ジェスチャーと音素の差分表現。J. Neurosci. 38, 9803-9813 (2018).
記事CAS Googleスカラー
Huggins, J. E., Wren, P. A. & Gruis, K. L. What would brain-computer interface users want? 筋萎縮性側索硬化症の潜在的利用者の意見と優先順位。Amyotroph. Lateral Scler. 12, 318-324 (2011).
論文 Google Scholar
Luce, P. A. & Pisoni, D. B. 話し言葉の認識：近隣活性化モデル. Ear Hear. 19, 1-36 (1998).
記事CAS Googleスカラー
Wrench, A. MOCHA: multichannel articulatory database. http://www.cstr.ed.ac.uk/research/projects/artic/mocha.html (1999).
Kominek, J., Schultz, T. & Black, A. 平均メルセプストル歪みで校正した新言語のシンセサイザー音声品質. In Proc. The first workshop on Spoken Language Technologies for Under-resourced languages (SLTU-2008) 63-68 (2008).
Davis、S. B. & Mermelstein、P. 連続して話される文における単音節の単語認識のためのパラメトリック表現の比較. 音声認識における読書会にて。IEEE Trans. Acoust. 28, 357-366 (1980).
論文 Google Scholar
Gallego, J. A., Perich, M. G., Miller, L. E. & Solla, S. A. Neural manifolds for the control of movement. Neuron 94, 978-984 (2017).
記事CAS Googleスカラー
Sokal, R. R. & Rohlf, F. J. 客観的手法によるデンドログラムの比較。Taxon 11, 33-40 (1962).
記事 Google Scholar
Brumberg, J. S. et al. Spatio-temporal progression of cortical activity related to continuous overt and covert speech production in a reading task. PLoS ONE 11, e0166872 (2016).
記事グーグルスカラ
Mugler、E. M. et al. 機能的な音声運動皮質からの信号を用いた、すべてのアメリカ英語の音素の直接分類。J. Neural Eng. 11, 035015 (2014).
記事ADS Googleスカラー
Herff, C. et al. Brain-to-text: Decoding spoken phrases from phone representations in brain. Front. ニューロサイエンス（Neurosci. 9, 217 (2015).
記事 Google Scholar
Moses, D. A., Mesgarani, N., Leonard, M. K. & Chang, E. F. Neural speech recognition: continuous phoneme decoding using spatiotemporal representations of human cortical activity. J. Neural Eng. 13, 056004 (2016).
記事ADS Googleスカラー
Pasley, B. N. et al. ヒトの聴覚皮質から音声を再構築する。PLoS Biol. 10, e1001251 (2012).
記事CAS Google Scholar
Akbari, H., Khalighinejad, B., Herrero, J. L., Mehta, A. D. & Mesgarani, N. Towards reconstructing intelligible speech from the human auditory cortex. Sci. Rep. 9, 874 (2019).
記事ADS Googleスカラー
マーティン、S.ら、人間の大脳皮質から表向きと裏向きの音声のスペクトル時間的特徴をデコードする。Front. Neuroeng. 7, 14 (2014).
記事 Google Scholar
Dichter, B. K., Breshears, J. D., Leonard, M. K. & Chang, E. F. The control of vocal pitch in human laryngeal motor cortex. Cell 174, 21-31 (2018).
記事CAS Googleスカラー
Wessberg, J. et al. 霊長類の皮質ニューロンのアンサンブルによる手の軌跡の実時間予測。Nature 408, 361-365 (2000).
記事ADS CAS Google Scholar
Serruya, M. D., Hatsopoulos, N. G., Paninski, L., Fellows, M. R. & Donoghue, J. P. Instant neural control of a movement signal. Nature 416, 141-142 (2002).
記事ADS CAS Google Scholar
Taylor, D. M., Tillery, S. I. & Schwartz, A. B. Direct cortical control of 3D neuroprosthetic devices. Science 296, 1829-1832 (2002).
記事ADS CAS Google Scholar
Hochberg, L. R. et al. 四肢麻痺のヒトによる義肢装具のニューロンアンサンブル制御。Nature 442, 164-171 (2006).
記事ADS CAS Google Scholar
Collinger, J. L. et al. 四肢麻痺の個人による高性能な神経人工器官の制御. Lancet 381, 557-564 (2013).
記事グーグルスカラ
Aflalo, T. et al. 四肢麻痺のヒトの後頭頂皮質から運動イメージを解読する。Science 348, 906-910 (2015).
記事ADS CAS Google Scholar
Ajiboye, A. B. et al. 四肢麻痺者における脳制御筋刺激による到達・把持動作の回復：概念実証。Lancet 389, 1821-1830 (2017).
記事グーグルスカラ
プラハラード、K.、ブラック、A.W.&モスル、R.会話型音声合成のための発音バリエーションを捉えるためのサブフォネティックモデリング(Sub-phonetic modeling for capturing pronunciation variations for conversational speech synthesis). In Proc. 2006 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP, 2006).
Anumanchipalli, G. K., Prahallad, K. & Black, A. W. Festvox: tools for creation and analyses of large speech corpora. http://www.festvox.org (2011).
Hamilton、L. S., Chang, D. L., Lee, M. B. & Chang, E. F. Semi-automated anatomical labeling and inter-subject warping of high-density intracranial recording electrodes in electrocorticography. Front. Neuroinform. 11, 62 (2017).
記事ADS Googleスカラー
Richmond, K., Hoole, P. & King, S. mngu0調音コーパスの電磁調音（1日目）サブセットを発表。In Proc. Interspeech 2011 1505-1508 (2011).
Paul, B. D. & Baker, M. J. The design for the Wall Street Journal-based CSR corpus. In Proc. Workshop on Speech and Natural Language (Association for Computational Linguistics, 1992).
Abadi, M. et al. TensorFlow: large-scale machine learning on heterogeneous systems. http://www.tensorflow.org (2015).
Hochreiter, S. & Schmidhuber, J. Long short-term memory. Neural Comput. 9, 1735-1780 (1997).
記事CAS Googleスカラー
Maia, R., Toda, T., Zen, H., Nankaku, Y. & Tokuda, K. An Excitation model for HMM-based speech synthesis based on residual modeling. In Proc. 6th ISCA Speech synthesis Workshop (SSW6) 131-136 (2007).
Wolters, M. K., Isaac, K. B. & Renals, S. Evaluating speech synthesis intelligibility using Amazon Mechanical Turk. In Proc. 7th ISCA Speech Synthesis Workshop (SSW7) (2010).
Berndt、D. J. & Clifford、J. Using dynamic time warping to find patterns in time series. In Proc. 10th ACM Knowledge Discovery and Data Mining (KDD) Workshop 359-370 (1994).
参考文献をダウンロードする
謝辞
原稿に対するコメントをいただいたM. Leonard、N. Fox、D. Moses、MRI画像の再構成を手伝っていただいたB. Speidelに感謝する。この研究は、NIHからの助成金（DP2 OD008627およびU01 NS098971-01）の支援を受けています。E.F.C.は、New York Stem Cell Foundation-Robertson Investigatorである。この研究は、The William K. Bowes Foundation、Howard Hughes Medical Institute、The New York Stem Cell Foundation、The Shurl and Kay Curci Foundationからも支援を受けている。
レビュアー情報
Natureは、David Poeppelおよび他の匿名査読者の本作品の査読への貢献に感謝します。
著者情報
著者ノート
これらの著者は同等に貢献した： Gopala K. Anumanchipalli, Josh Chartier
著者と所属
カリフォルニア大学サンフランシスコ校神経外科（米国カリフォルニア州サンフランシスコ市
ゴパラ・K・アヌマンチパリ、ジョシュ・シャルティエ、エドワード・F・チャン
カリフォルニア大学サンフランシスコ校ワイル神経科学研究所（米国カリフォルニア州サンフランシスコ市
ゴパラ・K・アヌマンチパリ、ジョシュ・シャルティエ、エドワード・F・チャン
カリフォルニア大学バークレー校・カリフォルニア大学サンフランシスコ校バイオエンジニアリング共同プログラム（米国・カリフォルニア州バークレー市
ジョシュ・シャルティエ＆エドワード・F・チャン
貢献度
G.K.A.、J.C.、E.F.C.は研究を構想し、G.K.A.は関節運動学を推論し、G.K.A.とJ.Cはデコーダーを設計し、J.Cはデコーダー分析を行い、G.K.A、J.C.Eはデータ収集と原稿作成を、E.F.Cはプロジェクト監督を担当しました。
責任著者
エドワード・F・チャンに対応しています。
倫理に関する宣言
競合する利益
著者は、競合する利害関係を宣言していない。
追加情報
出版社からのコメント：シュプリンガー・ネイチャーは、出版された地図や所属機関の管轄権の主張に関して、中立を保っています。
拡張データ図と表
図1 オリジナルとデコードのスペクトログラムの中央値。
a, b, オリジナル音声（a）とデコード音声（b）の音素（/i/, n = 112; /z/, n = 115; /p/, n = 69, /ae/, n = 86）のオンセットにタイムロックしたスペクトログラムの中央値である。これらの音素は、スペクトル特徴の多様性を表している。原音と復号された音素のスペクトログラムの中央値はよく相関していた（すべての音素でピアソンのr > 0.9, P = 1 × 10-18）。
Extended Data 図2 各試行における転写のWER。
a, b, 25語(a)または50語(b)のプールの試行を個別に書き写した場合のWER. 聞き手は、定義された単語プールから単語を選択して、合成文を書き写した。単語プールには、合成された文に含まれる正しい単語と、テストセットからのランダムな単語が含まれている。1つの試行は、1人のリスナーが1つの合成文を書き写したものである。
Extended Data 図3 参加者の電極アレイの位置。
参加者の脳のMRI再構成とECoGアレイの位置の重ね合わせ。P1-5は、参加者1-5。
拡張データ図4 運動学的特徴およびスペクトル特徴のデコーディング性能。
a,全33個のデコードされた調音運動特徴量とグランドトゥルース（n = 101センテンス）との相関。EMA特徴は、声道の中矢状面に沿った調音器（唇、顎、舌の3点）のx、y座標の軌跡を表しています。マナー特徴は、EMAを補完する運動学的特徴を表し、音響的に重要な動きをさらに記述する。 b, 32個のデコードされたスペクトル特徴のグランドトゥルースとの相関（n = 101センテンス）。MFCC特徴量は25個のメル周波数セプストラム係数で、知覚的に関連する周波数帯域のパワーを表現する。合成特徴量は、音声合成に必要な声門励起の重みを表す。図2に記載した箱ひげ図。
図5 運動状態空間と音響状態空間で説明される累積分散を比較したもの。
運動学と音響学のそれぞれの音声表現について主成分分析を行い、追加された各主成分の説明される分散を累積的に合計した。運動学的表現は33個、音響学的表現は32個の特徴を有していた。
Extended Data 図6 復号された音素の音響類似度行列。
音響類似度行列は、復号化された音素と元々話されていた音素の音響特性を比較したものである。類似度は、まず各音素（デコード音素とオリジナル音素）のガウスカーネル密度を推定し、デコード音素とオリジナル音素の分布のペア間のカルバック・ライブラー（KL）発散を計算することで算出される。各行は、デコードされた音素と元々話されていた音素（列）の音響特性を比較したものである。得られた類似度行列に対して階層的クラスタリングが行われた。参加者1のデータ。
拡張データ図7 グランドトゥルース音響類似度マトリックス。
真正の音声音素の音響特性を比較したものである。類似度は、まず各音素のガウスカーネル密度を推定し、次に一対の音素分布間のカルバック・ライブラー発散を計算することで算出される。各行は、2つの真実の音声音素の音響特性を比較している。得られた類似度行列に対して階層的クラスタリングが行われた。参加者1からのデータ。
図8 新規文と繰り返し文のデコードの比較。
a, b, 比較指標は、スペクトル歪み(a)とデコードされたスペクトル特徴と元のスペクトル特徴との相関(b)である。この2種類の文に対するデコーダーの性能を比較したところ、有意差は見られなかった（P = 0.36 (a), P = 0.75 (b), n = 51 sentences, Wilcoxon signed-rank test）。新規文とは、学習データには存在しない単語や単語列からなる文のことである。反復文とは、訓練データ中に少なくとも1つの一致する単語列がある文である（ただし、生成は独特である）が、この文は、訓練データにはない。比較は参加者1で行い、評価文は両ケースとも同じで、異なるデータセットで訓練した2つのデコーダで、テストセット内の文のユニークな繰り返しを除外または含める。 ns, not significant; P > 0.05. 図2に記載した箱ひげ図。
図9 音素固有の母音-子音遷移の運動学的状態空間軌跡。
子音または母音から特定の音素への遷移の主成分1（PC1）および2（PC2）の平均軌跡。a)子音から角母音への遷移（aa, ae, iy, uwのそれぞれn = 1,387, 1,964, 2,259, 894）。PC1はすべての隅母音を分離し、PC2は前母音（iy、ae）と後母音（uw、aa）を区別した。 b. 母音から非母音への撥音（k、p、tについてそれぞれn = 2,071, 4,107, 1,441). PC1は声門狭窄（k）、PC2は両唇狭窄（p）に対してより選択的であった。 c, 母音とアルベオラ（n、s、tに対して、それぞれn = 3,919, 3,010, 4,107, ）. PC1は調音方法（鼻音、撥音、摩擦音）による分離を示すが、PC2はあまり識別できない。 d, PC1とPC2は、有声と無声の歯槽膿漏の区別がほとんどない（あったとしても）（sとzについてそれぞれn = 3,010 と 1,855, for allveolar）。
補足情報
補足情報
このファイルには、a) EMAの軌跡を補強するために使用したプレースマナータプル、b) リスニングテストに使用した文原典： c) リスニングテストのクラスサイズ d) 明瞭度評価の転写インターフェース e) 明瞭度評価に使用したリスナーの数。
報告書の概要
補足動画1：デコードされた運動学と合成された音声の生成の例
動画は、会話文の神経記録から合成された音声の例を示している。各例では、文に対応する電極活動が表示されます（上）。次に、運動学と音響学の同時デコードが視覚と聴覚で提示されます。合成された音声スペクトログラムの展開とともに、デコードされた調音動作が表示されます（左中）。デコードに続いて、神経録音時に患者さんが話したオリジナルの音声が再生されます。最後に、デコードされた動作と合成された音声が再び表示されます。このような形式が、合計5つの例（参加者P1、P2）で繰り返されます。最後の例では、動作と音声もデコードされ、無言で模倣された音声が合成されます。
権利と許可
転載・許可について
この記事について
この記事を引用する
Anumanchipalli, G.K., Chartier, J. & Chang, E.F. Speech synthesis from neural decoding of spoken sentences. Nature 568, 493-498 (2019). https://doi.org/10.1038/s41586-019-1119-1
引用元：ダウンロード
2018年10月29日受領済み
2019年3月21日受理済み
2019年4月24日発行
発行日2019年4月25日
DOIhttps://doi.org/10.1038/s41586-019-1119-1
対象者
ブレイン・マシン・インターフェース
感覚運動処理
この記事の引用元は
脳波から音楽を神経で読み解く
イアン・ダリー
サイエンティフィックレポート（2023年）
神経インターフェース用侵襲性電極のトランスレーショナルな可能性と課題
コンリン・シェン
オリバー・チェン
ミッシェル・M・マハルビズ
ネイチャーバイオメディカルエンジニアリング(2023)
自由に動くヒトの単一ニューロンおよび局所電位活動をクローズドループで刺激・記録するためのウェアラブルプラットフォーム
ウロス・トパロビッチ
サム・バークレイ
デヤン・マルコビッチ
ネイチャー・ニューロサイエンス(2023)
非侵襲的脳記録からの連続言語の意味的再構成
ジェリー・タン
アマンダ・ルベル
アレクサンダー・G・フート
ネイチャー・ニューロサイエンス(2023)
柔軟なブレイン・コンピューター・インターフェース
シン・タン
ハオ・シェン
ジア・リウ
ネイチャーエレクトロニクス(2023)
コメント
コメントを投稿することで、私たちの規約とコミュニティガイドラインに従うことに同意したことになります。もし、罵詈雑言や規約・ガイドラインに沿わないものを見つけた場合は、不適切なものとしてフラグを立ててください。
ネイチャー（Nature） ISSN 1476-4687（オンライン） ISSN 0028-0836（印刷物）
ネイチャーズドットコムサイトマップ
ネイチャーポートフォリオについて
私たちについて
プレスリリース
報道関係者
お問い合わせ
ディスカバーコンテンツ
ジャーナルA-Z
テーマ別記事
ナノ
プロトコル交換
ネイチャーインデックス
パブリッシングポリシー
ネイチャー・ポートフォリオ・ポリシー
オープンアクセス
著者・研究者向けサービス
転載・許可
研究データ
言語編集
科学編集
ネイチャーマスタークラス
ネイチャーリサーチアカデミー
リサーチソリューション
図書館・施設
ライブラリアンサービス＆ツール
図書館員用ポータルサイト
オープンリサーチ
図書館に推薦する
広告・パートナーシップ
広告
パートナーシップとサービス
メディアキット
ブランデッドコンテンツ
キャリア開発
ネイチャーキャリア
ネイチャーコンファレンス
ネイチャーイベント
地域別ウェブサイト
ネイチャーアフリカ
ネイチャーチャイナ
ネイチャーインディア
自然イタリア
ネイチャージャパン
ネイチャーコリア
自然中東
個人情報保護方針

クッキー（Cookie）の使用

Cookieを管理する/私のデータを販売しない
法的注意事項

アクセシビリティ宣言

ご利用条件

この記事が気に入ったらサポートをしてみませんか？