見出し画像

近刊『マルコフ決定過程―モデル化の基礎と応用事例―』まえがき公開

2021年3月下旬発行予定の新刊書籍、『マルコフ決定過程』のご紹介です。
同書のまえがきを、発行に先駆けて公開します。

マルコフ

https://www.morikita.co.jp/books/book/3495

***

まえがき

意思決定問題は、「予測」(たとえば、確率モデルを用いた予測)と「予測情報に基づく意思決定」という2段階で検討されることが多い。株価の予測情報が株の投資問題以外にも利用されるように、さまざまな「意思決定」に際して「予測情報」は共通的に利用される重要な情報である。

そのため、予測が意思決定よりも注目される傾向にある。たとえば、ビッグデータ、データマイニング、データサイエンスなどに関する話題でも、意思決定よりも予測が多い。

しかし、せっかく精度のよい予測情報を入手できても、後者の意思決定を適切に行わないと損失を被ることがある。意思決定では、何らかの最適化方法を用いたり、経験則や勘によって決定する。意思決定に関する経験が不足する場合には、適切な最適化方法を選択できなかったり、稚拙な経験則によって誤った意思決定を行うことがある。

ここで、本書のテーマであるマルコフ決定過程の出番となる。マルコフ決定過程はさまざまな分野における意思決定問題を表現できる確率モデルである。確率モデルというと確率や期待値を利用した「予測」を思い浮かべる人が多いと思うが、マルコフ決定過程は、マルコフ連鎖に制御/意思決定の要素を加味した、「意思決定」のための確率モデルである。マルコフ決定過程を用いてモデル化すると、予測と意思決定の2段階ではなく、予測を含めた最終的な意思決定までを一つの問題として解くことができる。

「マルコフ連鎖に制御/意思決定の要素を加味する」というと難しそうなイメージをもたれるかも知れないが、基本的なマルコフ決定過程は理解しやすい簡易なモデルであり、その基本モデルでもさまざまな意思決定問題を表現できる。さらに、モデルを拡張することによって、より複雑な意思決定問題も表現できる。

本書では基本的なマルコフ決定過程拡張したマルコフ決定過程の基礎と、推薦システムや金融工学などさまざまな意思決定問題への適用例を紹介する。読者個々人の興味がある実問題とは異なる実問題への適用例であっても、数理モデルに落とし込むと同一(または類似)のモデルになる場合もあるので、本書掲載の適用例とご自分の興味がある実問題とを数理モデルの視点からよく見比べていただきたい。

本書では、強化学習深層強化学習ベイズ学習などの機械学習についても解説している。機械学習は、マルコフ決定過程を構成する一部の要素/情報が未知の場合に適用する。マルコフ決定過程によるモデル化に不案内であっても、強化学習/深層強化学習を実問題に適用することは可能である。そのため、強化学習/深層強化学習は手軽に利用できるイメージがあり、実際に多くの利用者がいる。しかし、モデル化に不案内であると学習アルゴリズム中での各種設定を適切に調整できなかったり、アルゴリズムの出力結果を正しく解釈できなかったりする場合がある。また、マルコフ決定過程を構成するすべての情報が既知の場合の最適解を算出することができないため、強化学習/深層強化学習の学習結果を適切に評価できないこともある。よって、強化学習/深層強化学習に興味をもつ方にも、本書で学習することをお薦めしたい。

本書の基本的な解説部分では、なるべく多くの計算例を紹介し、はじめてマルコフ決定過程を勉強する読者が理解しやすいように努めた。読者の皆さんには、自分でも手計算、表計算ソフト、プログラミング言語などを利用して計算してみてもらいたい。
第2章の基本的な解法の例については、PythonとRのソースコードを

https://www.morikita.co.jp/books/mid/085521

に用意したので、適宜活用してほしい。また、本書の学習後にさらに理論面などを掘り下げて学習したい人には、次にPutermanの“Markov Decision Processes”などに進むことを勧める。

***

マルコフ決定過程―モデル化の基礎と応用事例―
https://www.morikita.co.jp/books/book/3495

著:前田康成

推薦システム、金融工学、RPG…そして、深層強化学習。
さまざまな応用例を交えながら、マルコフ決定過程の理論とモデル化の基礎が身につく一冊。

マルコフ決定過程は、マルコフ連鎖に制御や意思決定の要素を加えた確率モデルです。本書では、前半で基礎理論とアルゴリズムを、後半で応用事例を学んでいきます。モデル式の工夫のしかたや複雑な計算手順を、モデル化の観点から一貫性をもって理解することができます。

マルコフ決定過程は、深層強化学習のアルゴリズムの基礎でもあります。本書の最終章では、深層強化学習の概要とニューラルネットワークで行われる計算のしくみを、マルコフ決定過程の計算を通して学びます。

【目次】

第1章 マルコフ決定過程とは
 1.1 意思決定問題とマルコフ決定過程
 1.2 マルコフ決定過程の計算のしくみ

第2章 マルコフ決定過程の基本的な問題設定とアルゴリズム
 2.1 マルコフ決定過程の構成
 2.2 有限期間の非割引問題における動的計画法
 2.3 有限期間の割引問題における動的計画法
 2.4 無限期間の割引問題における政策反復法
 2.5 無限期間の割引問題における価値反復法

第3章 マルコフ決定過程の基本的な機械学習
 3.1 強化学習(Q 学習)
 3.2 状態遷移確率が未知の場合のベイズ学習
 3.3 遷移系列の頻度表現によるベイズ学習の計算量の削減
 3.4 状態遷移確率が未知の場合のベイズ最適な能動学習
 3.5 状態が未知の場合のベイズ学習

第 4 章 真のパラメータが変化するマルコフ決定過程
 4.1 真のパラメータが観測可能な場合
 4.2 真のパラメータが観測不可能な場合

第 5 章 状態,行動,利得に関する工夫
 5.1 選択可能な行動と遷移先の状態が限定される場合
 5.2 いろいろな情報で構成される状態
 5.3 最後の期においてのみ発生する利得
 5.4 目標状態の滞在期間の最大化
 5.5 目標状態への到達確率の最大化

第6章 推薦システムへの適用
 ─基本的な非割引問題─
 6.1 顧客の履歴情報を利用した推薦システム
 6.2 顧客クラスが未知の推薦システム
 6.3 新規顧客への適応型アンケートを伴う推薦システム

第7章 金融工学への適用
 ─基本的な割引問題─
 7.1 個人融資における限度額の設定戦略
 7.2 景気変動を考慮した個人融資における限度額の設定戦略
 7.3 真のパラメータが未知の場合の設定戦略

第8章 ロールプレイングゲームへの適用
 ─複数の情報で構成される状態+複数の独立な試行で構成される状態遷移     確率によるモデル─
 8.1 ロールプレイングゲームの確率モデルによる表現
 8.2 マルコフ決定過程とロールプレイングゲームの対応
 8.3 真のパラメータが既知の場合の攻略法
 8.4 真のパラメータが未知の場合の攻略法
 8.5 真のパラメータが未知の場合のベイズ最適な能動学習
 8.6 ノンプレイヤーキャラクタを伴うロールプレイングゲームの攻略法

第9章 通信工学への適用
 ─複数の情報で構成される状態+少数のパラメータで構成される状態遷移確率によるモデル─
 9.1 選択再送ARQ(自動再送要求)の概要
 9.2 マルコフ決定過程と選択再送ARQ の対応
 9.3 動的計画法を用いた選択再送ARQ
 9.4 スループットの理論的限界の既存選択再送ARQ方式の評価への応用
 9.5 ブロック誤り率が未知の場合の選択再送ARQ
 9.6 通信路状態が未知の場合の選択再送ARQ

第10章 ベイズ流の仮説検定への適用
 ─最後の期においてのみ利得が発生するモデル(基礎)─
 10.1 仮説検定の確率モデル
 10.2 実験と観測結果を受け取ったもとでの仮説検定
 10.3 適応的な実験選択を伴う仮説検定

第11章 教育工学への適用
 ─最後の期においてのみ利得が発生するモデル(発展)─
 11.1 個別指導向けeラーニングの教授戦略
 11.2 複数の学習者が同じ教材で学習するeラーニングの教授戦略
 11.3 eテスティングの適応的な出題戦略

第12章 設備保全,アセットマネジメントとヘルスケア支援への適用
 ─良好な状態維持が目的のモデル─
 12.1 マルコフ決定過程と設備保全,アセットマネジメントの対応
 12.2 真のパラメータが既知の場合の設備保全,アセットマネジメント
 12.3 収益と景気変動を考慮した設備保全
 12.4 適応的なセンサ選択を伴うアセットマネジメント
 12.5 適応的な検査項目の選択を伴うヘルスケア支援

第13章 深層強化学習の入口
 13.1 深層学習,深層強化学習,強化学習(Q学習)の関係
 13.2 全結合ニューラルネットワークの基礎
 13.3 畳み込みニューラルネットワークの基礎
 13.4 強化学習と全結合ニューラルネットワーク
 13.5 強化学習と畳み込みニューラルネットワーク
 13.6 出力値に関する工夫
 13.7 入力値に関する工夫
 13.8 全結合ニューラルネットワークの深層強化学習

付録A マルコフ連鎖
 A.1 マルコフ連鎖の定義と状態遷移
 A.2 定常分布

付録B 隠れマルコフモデル
 B.1 隠れマルコフモデルの定義
 B.2 ビタビアルゴリズム
 B.3 BCJRアルゴリズム

付録C ベイズ統計と統計的決定理論
 C.1 事前確率と事後確率
 C.2 統計的決定理論に基づくサイコロの推論
 C.3 事後確率最大化とベイズ最適なサイコロの推論
 C.4 HMMの推定問題における状態系列単位での推定誤り率の最小化
 C.5 HMMの推定問題における状態単位での推定誤り率の最小化

参考文献

索引

この記事が気に入ったらサポートをしてみませんか?