見出し画像

戦略系ゲームの数理モデル~ゲーム理論1~


ゲーム理論

経済学(に限らず)現代の意思決定論にはゲーム理論を用いる。経済学は専門的に学んだことは無いので頓珍漢な事を言っていたら指摘して欲しいが、ゲーム理論が出てくる以前の経済学においては個々人が局所最適化した経済活動をしたときにそれが全体最適に繋がるという「神の手」が信じられていた。しかし現代では囚人のジレンマを始めとする多くの反例により問題はそう単純ではない事が言えており、ゲーム理論的なモデリングをしてその均衡点を考察するという事が常識的になっている。
ゲーム理論における書籍は多くあるものの、上記本はかなり数理的で難しい。私もド素人ではあるが、noteの記事の為に読んだ。今は約3日くらいで第2章しか読めていないが、通読には膨大な時間がかかりそうなので、更新頻度を多くしたいという事もありアウトプットすることにした。
今回は戦略型ゲームについての数理を紹介する。

戦略型ゲームの定義

プレイヤーの戦略と利得の関係によって定義されるゲームを戦略型ゲームと言い、数理的には$${G= (N, \{S_i\}_{i \in N}, \{f_i\}_{i \in N})}$$と定義される。ここで$${N=\{1, \cdots, n\}}$$はプレイヤーの集合。$${S_i}$$はプレイヤー毎に選択可能な戦略の集合。$${f_i}$$は戦略の直積$${S= \prod S_i}$$上の各プレイヤーの利得関数である。
ここで各プレイヤーは十分理性的かつ合理的であり、自らの利益$${f_i}$$を最大化するように行動するものと仮定する。

ナッシュ均衡点とパレート最適1

戦略の組$${s}$$がパレート最適とは全てのプレイヤーに対して$${f_i(t) > f_i(s)}$$となる戦略の組$${t}$$が存在しない事であり、即ち全てのプレイヤーにとってそれ以上に望ましい戦略の組がない事である。神の見えざる手という哲学を拡大適用するならば、任意のゲームはパレート最適になる。つまり「もしパレート最適でないならば、戦略$${s}$$をより良い戦略$${t}$$に変更しても損はないのだから、全員が合理的選択をするのならば達成される全てはパレート最適である」と直感的に思えるからである。しかし、これはナッシュ均衡の概念により明確に否定され、現在では常識である。
初めに、プレイヤー$${i}$$の戦略$${s_i}$$が他の$${n-1}$$人のプレイヤーの戦略$${s_{-i} = (s_1, \cdots , s_{i-1}, s_{i+1}, \cdots , s_n)}$$に対して最適応答とは、$${f_i(s_i, s_{-i}) = \max_{t_i \in S_i}f_i(t_i, s_{-i})}$$が成り立つことである。戦略$${s_{-i}}$$における最適応答の全体を$${B_i(s_{-i})}$$とおく。そして戦略$${s}$$が任意のプレイヤーに対して、最適応答になっているときナッシュ均衡と言う。ナッシュ均衡とは戦略$${s}$$に対して過剰な条件を課しているようにもぱっと見見えるものの、のちに述べる混合戦略においてはナッシュ均衡が必ず存在することが証明できる。定義からすぐわかるようにナッシュ均衡は予測初期位置に依存する概念(※例えば機械学習等の更新アルゴリズム的推論でよく出てくる初期値的なものを思い浮かべて正しい)であり、一般的に複数存在する。
例としてエスカレーターに乗る位置の問題を考えてみると、東京と大阪でそれぞれ左と右で違うらしいがこれらはそれぞれナッシュ均衡である。即ち他が左に並ぶという推論の元、自身が左に並ぶことは(邪魔をしないという意味で)最適応答であり、全員が左に並ぶという戦略は各人において最適応答でありナッシュ均衡である。しかしこの議論は左も右も区別が無いので、全員が右によることもナッシュ均衡なのである。また、この事より直感的にナッシュ均衡は現実世界に自然に現れる概念である事が分かるだろう。

ナッシュ均衡とパレート最適2

均衡と言う言葉が示すように、または最適応答という定義からも分かるように、戦略がナッシュ均衡点になった時には各人においてネガティブな意味で戦略を変更するインセンティブが無くなる。エスカレーターの例では$${n-1}$$人が左によっている時に自分だけが右によることは合理的では無いだろう。均衡点にハマったら基本的にミクロ目線としてその後に戦略が変更されることは無いから、本来は均衡点がパレート最適になって欲しいものの残念ながら一般的にそうはならない。
典型的には囚人のジレンマという例が存在する。即ち2人の囚人が黙秘を選択すれば誤魔化しが効き、お互いが罪に問われることが無いというパレート最適があるのだが、「もし自白をすれば刑を軽くしてあげる」というルールの元ゲームを行うと、片方の囚人が自白した瞬間に自分だけが罪が重くなるという意味で裏切りのインセンティブが働き、最適応答、即ちナッシュ均衡はどちらも自白するというものになってしまうのである。

混合戦略

上記で考えてきた戦略は純戦略と言い、シンプルであるが現実はもっと複雑かもしれない。例えば今不法行為をインセンティブに持つ者と、それを取り締まりたいものがいるとする(例えば旅行者と税関)。この時、税関の純戦略はかばんを検査する$${(A)}$$か、かばんを検査しない$${(N)}$$になるが、全てのかばんを検査すると費用がかさむのでそういうことはしたくない。しかし、全ての検査がダミーであれば合理的な旅行者は不法行為を犯し無税で輸入する選択肢を取るだろう。さすれば取るべき道は確率$${p}$$で検査をする選択肢である。勿論旅行者はこれを予測するので確率$${q}$$にて不法行為を犯すという戦略を取ることになる。不法行為をされるダメージが大きいと判断をなされればモデルが変更となり、$${p}$$が1に近づくもののやはり混合戦略である事には変わりがない。
そこで$${G= (N, \{Q_i\}_{i \in N}, \{F_i\}_{i \in N})}$$を元のゲームの混合拡大と言う。ただし、$${Q_i}$$は$${S_i}$$上の確率分布の全体。$${F_i(q) = \sum_s \{ \prod_j q_j(s_j)\} f_i(s)}$$, $${q_j(s_j)}$$は混合戦略$${q_j}$$が純戦略$${s_j}$$に付与する確率を表す。$${F_i}$$は期待利得関数になっている。モデルはやや複雑ではあるものの、翻訳すると各純戦略$${s}$$についてプレイヤーに対する利得という重み$${f_i(s)}$$を積分したいのだが、混合戦略を純戦略に還元した時の確率$${q_j}$$を加味しないといけないという事である。(あまり翻訳になっていないか・・・)
前述したように純戦略の範囲ではゲームの均衡点は必ずしも存在しないが、混合戦略の範囲では存在する事が知られている。その証明には、混合戦略の全体が純戦略を頂点に結んだユークリッド空間上の単体である事と期待利得関数が$${q_i}$$に関して線形であるという特徴を基に、位相幾何的な定理である角谷の不動点定理が用いられる。

まとめ

第2章だけでもまだまだ内容が濃いのだが、ナッシュ均衡やパレート最適等の概念の説明から混合戦略の定義付近までを紹介してみた。特に混合戦略は私の行動哲学のひとつになっており、座右の銘である「調和(バランス)」を強化しているものである。つまり大体の事は混合戦略に閾値関数を通したものとしての意思決定であるが、それは表出されたものであり、裏は違う(確率分布として選択し得る)というは知っているだけで非常に面白い。
その他にもゲーム理論は語るに華があるので、クリエイターとして学んで紹介していきたいと思う。
スキやフォロー、シェアください!



この記事が気に入ったらサポートをしてみませんか?