Gymで強化学習㊹A3C:紹介編

2023年10月29日 10:46

前回は、Actor-Critic（以下、AC）の実装を行いました。訓練をすばやく行えるのと同時にハイパーパラメータなどの設定によっては学習が不安定になりやすい点もありました。

学習が不安定になりがちなのは、ACの本質的な課題です。そのため、AC系統の強化学習の発展においては、学習の安定化に注力がなされました。

その一つの例として、今回は2016年にDeepMind社が論文で発表したA3C（Asynchronous Advantage Actor-Critic）を紹介します。DeepMindといえば、このシリーズでも何度も取り上げてきたDQNを開発し、その後Googleに買収された会社です。

A3Cは、AtariゲームでDQN以上の高得点を達成しました。しかも、GPUを使わないマルチコアCPUでの訓練によって、それまで必要だった訓練時間を半減することに成功しました。

では、A3Cとはどのような仕組みを使って優秀な成績をより短い訓練時間で叩き出せたのでしょうか。ACにどのような改良を加えたのでしょうか。そこで鍵となるのは、A3Cにおける学習の安定化にあります。今回は、これを解説します。

では、さっそく始めましょう。

ここから先は

6,547字

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？