見出し画像

深層強化学習で動物の階層的行動を解き明かす

バイオリンを弾くという行動を考える。
顎でバイオリンを挟み、左手で弦を押さえ、右手で弓を弦と垂直に動かす。
このように、私たちの行動は複数の行動要素の組み合わせで成り立っている場合が多い。
では、複雑な行動を構成するための行動要素の組み合わせ方は、どのように学習しているのだろうか?

深層強化学習(AIの一分野で、ディープラーニングの表現力と強化学習の問題設定を組み合わせている)の分野では、事前に学習した簡単なサブタスクを転移することで複雑なタスクの学習が促進される。
これは、学習した行動価値を線形変換して新しい課題の学習に用いることで行われることが分かっている。
このような学習戦略が動物でも行われているのか、またそこに行動の確率性はどのように関与しているのかが今回紹介する論文の主題である。
深層強化学習モデルと2光子ランダムアクセスメゾスコープを用いたマウス実験により、本研究はこの謎に答えている。

Makino, H. Arithmetic value representation for hierarchical behavior composition. Nat Neurosci (2022).
DOI: https://doi.org/10.1038/s41593-022-01211-5

結果

図1では、マウス(BNN)と深層強化学習エージェント(ANN)に同じタスクを解かせ、その成果を比較している。ジョイスティックでゴールの位置までLEDを運ぶタスクと、LEDが点灯した際に水をなめるというタスクをサブタスクとして用意し、それらを両方行えた場合のみ報酬を得られるタスクを複合タスクとして設定した(図1a)。マウスはこれらのサブタスクを学習でき(図1b)、予想通り複合タスクはサブタスクを事前学習した場合のみ解くことができた(図1d)。

出典:本文 図1

深層強化学習アルゴリズムとしては、モデルフリーで、エントロピー最大化に基づくSoft Actor Critic (SAC)を使用した(図1f,g)。SACはオフポリシーアルゴリズムで、過去の経験を使いまわしてサンプル効率を上げる点も動物学習と共通する部分なのではないかと考えられている。SACは報酬と方策のエントロピーを最大化する項を目的関数に含み、方策を最適化するだけでなく、探索を促す効果があるといわれている。理論的な研究から、サブタスクの行動価値の平均をとることで複合タスクの最適行動価値の近似が得られることが知られている。ANNも個々のサブタスクを解けるのみならず行動価値の平均化によって複合タスクをより早く解けることが分かり、動物の学習との類似性が示唆された(図1h,i)。

出典:本文 図1

図2では、複合タスクを解く際の神経表現をANNとBNNで比較している。Qネットワークの隠れ層の獲得した表現を調べてみると、状態価値や行動価値を表現する神経ユニットがみられ、それらの割合は学習に伴って上昇した(図2a-c)。2光子ランダムアクセスメゾスコープ(2p-RAM)を用いて1次運動野(M1)、2次運動野(M2)、1次体性感覚皮質(S1)、脳梁膨大後部皮質(RSC)、後頭頂葉皮質(PPC)から神経活動を記録し、一般化線形モデル(GLMs)によりどのような情報を表現しているかをデコードした(図2d-f)。マウスの神経細胞もANNと同様に行動価値を表現しているものがあり、その割合は学習により上昇することが分かった(図2b,g)。先行研究と一致して、タスク1の行動価値はPPCで表現している細胞の割合が最も多く、タスク2の行動価値はM2で表現している細胞の割合が最も多かった。

出典:本文 図2

図4は、複合タスクにおいて行動価値の平均が計算されていることを示している。複合タスク学習の初期段階について行動価値関数と個々の神経の活性化パターンのタスク環境内の場所ごとの相関をとると、サブタスクで高い行動価値をとる場所において活性化する細胞の相関が高いことがANNとBNN双方で分かった(図4a)。また、ANNが複合タスクを学習する際に、最初の数セッションではサブタスクで用いたものの平均を行動価値として用いるが、その後分離していたサブタスクの行動価値の表現が混合されていくということが示された(図4b)。このような行動価値表現の分布の変化はマウスにおいては脳領域ごとの分布の変化に対応し、最初はサブタスクごとに異なる脳領域に分離して表現されていた行動価値が、学習が進むにしたがって広く混合された形で分布するようになった(図4c)。

出典:本文 図4

感想

本研究はマウス神経系の規模や結合といった生物学的な特性はいったん無視して、ANNとBNNに同じタスクを学習させ、結果を解析・比較することでそれらの類似点と相違点を洗い出す、というトップダウンのアプローチをとっている。従来の、生物学的現象を観測により明らかにしていくアプローチやそれに基づきボトムアップにモデルを作成するアプローチとは大きく異なる。しかし、複雑な行動を階層的に学習していく際の脳神経系での計算機構を提示しており、従来の手法と相補的に働く強力な研究手法なように感じた。
また、今回は取り上げなかったが、エントロピー最大化項を含む確率的な行動により、複雑なタスクの階層的な行動学習がどのように促進されるか、についてもANNとBNNの比較を通じて探究されている。
実験系では珍しい単著の論文であるため、一般的に論文でWeと記されるところがすべてIと記されており、面白かった。

複雑な行動を構成するための行動の組み合わせはどのように学習しているか。深層強化学習の分野では、事前に学習した簡単なサブタスクを転移する。学習した行動価値を線形変換して新しい課題の学習に用いることで行われる。

ELYZA DIGESTを用いて要約
サムネイル画像の出典:https://doi.org/10.1038/s41593-022-01211-5