Gymで強化学習②基本的な枠組み

2023年2月1日 21:46

今記事では強化学習の基本的な枠組みを解説します。

前回はGymnasium（Gym）で強化学習を行う環境を準備しました。

その際に以下の用語が登場しました。

これらの用語を使って強化学習エージェントがどのように学習を行うのかを議論します。

さっそく始めましょう。

エージェントと環境のやり取り

強化学習ではエージェントが環境から学ぶことで最適な行動を決めれるようになることを目指します。つまり、エージェントは環境に作用し、その結果を環境から観測します。

ただし、環境で起きていることをすべて観測できる場合とそうでない場合があります。また、最適な行動とは何かという疑問もわきます。そこでは環境から得られる報酬が関係してきます。

以下では、Gymの環境でも見られた環境の初期化から始めてエージェントと環境の相互作用を通して様々な疑問に答えていきます。

2,894字 / 4画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？