書記の読書記録#1125『ITエンジニアのための強化学習理論入門』
中井 悦司『ITエンジニアのための強化学習理論入門』のレビュー
レビュー
強化学習の一つ一つの動作をコードで追っていく入門書で,実務で使うにしてはやや細かいが理論の初歩を理解するのにちょうど良い。
もくじ
第1章 強化学習のゴールと課題
1.1 強化学習の考え方
1.2 実行環境のセットアップ
1.3 バンディットアルゴリズム(基本編)
1.4 バンディットアルゴリズム(応用編)
第2章 環境モデルを用いた強化学習の枠組み
2.1 マルコフ決定過程による環境のモデル化
2.2 エージェントの行動ポリシーと状態価値関数
2.3 動的計画法による状態価値関数の決定
第3章 行動ポリシーの改善アルゴリズム
3.1 ポリシー反復法
3.2 価値反復法
3.3 より実践的な実装例
第4章 サンプリングデータを用いた学習法
4.1 モンテカルロ法
4.2 TD(Temporal-Difference)法
第5章 ニューラルネットワークによる関数近似
5.1 ニューラルネットワークによる状態価値関数の計算
5.2 ニューラルネットワークを用いたQ-Learning
本記事のもくじはこちら:
学習に必要な本を買います。一覧→ https://www.amazon.co.jp/hz/wishlist/ls/1XI8RCAQIKR94?ref_=wl_share