見出し画像

ついに脳の情報から音声・表情を可視化

以前から脳と機械をつなげるBMI(Brain Machine Interface)が、さらなる進歩を遂げていると感じる記事を見つけました。

BMIの基礎情報については過去記事の引用にとどめておきます。

上記記事内に埋め込まれたYoutube動画をみたほうが分かりやすいと思います。

もともと以前より、脳の動きをfMRIなどを使って動的にデータ解析し、そこから言語化する実験と実証はよく耳にしました。

ただ、そこではやはりテキストチャットに閉じたインタフェースでした。(あくまで見つけた範囲内では)

今回はそれをマルチ化しており、音声はなんとなくわかるのですが、興味深いのは表情を視覚的に表現しようとしている点です。

ようは、より自然に近い対話へ近づいているということです。

こちらによると、50 語の語彙で 9.1% の単語誤り率を達成しました (従来より誤り率 が2.7 倍現象)。125,000 単語の語彙で 23.8%で、これも従来よりも相当改善した成果のようです。
あとは対話する時間ですが、大体1分間160ワードを記録しています。
これは自分でその言葉でコントロールして話せばわかりますが、ゆっくりしゃべるペースに近いのではないでしょうか?

出所:上記記事内の図

上記図でも一部ネットワークの図がありますが、ここでもAIが主役級の活躍を見せています。

第三次AIブームの火付け役深層学習、その中でも時系列処理に強いRNNを解析に使っています。

余談ですが、RNNは相当コンピュータリソースを食うため、それを改良に改良を重ねたのが、今話題のChatGPTの源流にあたるTransformerです。

このあたりは簡単に過去にもふれたので引用しておきます。

上記の引用記事では、タイトルのとおりChatGPTの由来よりは、それが基礎科学の分野に色々と波及する可能性に触れています。

今回もまさに神経科学の領域での大きな飛躍を下支えしています。

ずれているかもしれませんが、今回は音声化のため、音の要素(音素?)の解読もAIを使って行っています。

となると、もしかしたらそもそも音の基礎科学にも貢献しないかな?と無邪気に感じました。

そして、今回の記事では詳細までは追いかけられませんでしたが、表情との相関性が興味深いです。

今回の研究とは関係ないですが、口腔の動きをAIで解析してヘルスチェックするサービスは日本でも登場しています。

こういった生活に彩を与えるサービスもあれば、基礎科学の底上げにも貢献する、AIはまさに科学のエネルギーの役割を担っていると改めて感じた次第です。

この記事が気に入ったらサポートをしてみませんか?