Suphx論文を読もう アブストラクト〜イントロダクション編

麻雀AIのSuphxについての論文が出ていた(原文)ので読みます。ついでに和訳を置いておきます。

※基本的な文章は翻訳ソフトで訳して不自然な部分をなるべく修正しています。麻雀用語は自力で訳しています。また注釈は飛ばしています。

専門用語等もし翻訳違うよってところがあれば指摘ください。

タイトル

Suphx: 深層強化学習で麻雀をマスターする

著者と研究機関

Junjie Li,  Sotetsu Koyamada, Qiwei Ye, Guoqing Liu, Chao Wang, Ruihan Yang, Li Zhao, Tao Qin, Tie-Yan Liu, Hsiao-Wuen Hon

Microsoft Research Asia , Kyoto University ,University of Science and Technology of China, Tsinghua University ,Nankai University

アブストラクト(要約)

人工知能は多くの分野で大成功を収めており、ゲームAIはAIの黎明期から広くその足掛かりとされています。その中では、ここ数年、相対的にシンプルな環境(囲碁などの完全情報ゲーム、チェス。将棋やヘッズアップテキサスのような2人対局のもの)から、より複雑なマルチプレイヤーのゲーム(テキサスホールデムやStart Craft 2など)まで研究されています。麻雀は世界中で人気のあるマルチプレイヤーの不完全情報ゲームですが、非常に複雑なプレイ/スコアリングのルールと豊富なコンテンツ、隠れた情報があるため、AIには非常に挑戦的なゲームです。我々はSuphxと名付けた麻雀用のAIを設計します。新たに導入された手法を用いた深層強化学習について大域的な報酬の予測報酬予測、オラクルガイド、ランタイムポリシーを含んで適用しています。Suphxは、安定したランクの大部分のトップの人間プレイヤーより強いパフォーマンスを示し、天鳳というプラットフォームの公式にランク付けられた人間プレイヤーの99.99%以上と評価されます。コンピュータープログラムが麻雀において大部分の最高の人間のプレーヤーより優れているのはこれが初めてです。

1. イントロダクション(導入)

ゲームのために超人的なプログラムを構築することは、人工知能 (AI)の長年のゴールです。ゲームAIは、過去20年最近の研究における大きな進展を比較的単純な完全情報または2プレイヤーゲーム(例えば、将棋、チェス、ヘッズアップテキサスホールデム)からより複雑な不完全情報マルチプレイヤーゲーム(例えば、コントラクトブリッジ、ドウタ、StarCraft2、マルチプレイヤーテキサスホールデム)まで徐々に進化させました。

麻雀という牌を用いる不完全情報ゲームは、世界で何億ものプレイヤーに非常に人気があります。各局で4人のプレイヤーは最初にあがること目指します。強い麻雀プログラムを構築することは、ゲームAIの研究への素晴らしいチャレンジです。

まず、麻雀には複雑な点数ルールがあります。麻雀には各局があり、それらの局の累計によってゲームの最終スコアが決まります。1局の損失は必ずしもそのプレイヤーがうまくプレーできなかったことを意味するわけではありません(例えば、プレイヤーが前局までに大きいアドバンテージをとっているなら、順位を確定させるために最終局を戦術的に捨てるかもしれません)。したがって局のスコアを学習のフィードバックとして直接使用することはできません。さらに、麻雀には膨大な数のあがり形の可能性があり、それらは互いに大きく異なり、もたらす点数も違います。このような採点ルールは以前に研究された囲碁やチェスより遥かに複雑です。麻雀のプロプレイヤーは局であがれる可能性と得点を考え慎重に手を作る必要があります。

第二に、麻雀では各プレイヤーの手牌として、13枚の隠れた牌が存在します。これは他のプレイヤー表示されません。また14枚の見えない牌[→dead wall,ワンパイのことだと思われる]もあります。これは全てのプレイヤーに見られません。また70枚の牌は、対局中の全てのプレイヤーから見えないが、プレイヤーによって引かれて、捨てられた後に見えるようになります。その結果、各情報セットとして区別できない平均1048以上の隠された状態があります。この大量の情報セットは以前に研究された不完全情報ゲームのテキサスホールデムよりはるかに多いです。あるアクションの良さがプレイヤーの手牌と見えていない牌に高く依存するため、どのアクションが手牌だけに基づくだけで良いのか決めることが難しいです。したがって、AIが報酬シグナルを観察された情報に接続することも難しいです。

第三に、麻雀のルールは複雑です。(1)様々なアクションがある。リーチ、チー、ポン、カン、打牌(2)鳴きによって通常のゲームの一連の流れが変更になることがある。これらのアクションは各プレイヤーが可能なため、最大13個の手牌だけではこれらの中断を予測することが難しいため、通常のゲーム木を構築することができません。ゲーム木を作っても、木には連続したアクションの間に膨大なパスがあります。これにより、以前に成功したモンテカルロ木探索やCounterfactual Regret Minimaization(CFR)を用いることができません。

上記の課題のためにいくつかの試みがありますが、最高の人間AIは依然として人間のトッププレイヤーには遥か及びません。

今回は、4人麻雀(リーチ麻雀)(世界最大の麻雀コミュニティの一つ)にAIシステムであるSuphx(Super Phoenixの略)を構築します。Suphxは深い畳み込みニューラルネットワーク(CNN)をモデルとしています。ネットワークは最初に人間のプロ選手のログから学び、その後ネットワークをポリシーとするself-play reinforcement learning (RL)を使用します。我々はself-play reinforcement learning (RL)のためにポピュラーな最急降下法を使って、いくつかの技術を導入します。

1.大域的な報酬の予測報酬予測は現在の局と過去の局の情報に基づいて最終的な報酬を予測するように予測子をトレーニングします。

2.オラクルガイドでは、他のプレイヤーの手牌や山など、完璧な情報を見ることができるオラクルエージェントを紹介しています。このオラクルエージェントは(不公平な)完全な情報アクセスにより、非常に強力な麻雀AIです。 RLトレーニングプロセスでは、オラクルエージェントから完全な情報を徐々に削除し、最後に、観察可能な情報のみを入力として受け取る通常のエージェントに変換します。 オラクルエージェントの助けを借りて、通常のエージェントは、観察可能な情報のみを利用する標準のRLトレーニングよりもはるかに速く改善します。

3.麻雀のルールが複雑なために不規則なゲーム木になり、モンテカルロ木探索技術の適用が困難になるため、パラメトリックモンテカルロポリシーアダプテーション (parametric Monte-Carlo policy adaptation, 以降pMCPA)を導入し、エージェントの実行時性能を向上させています。pMCPAは、オンライン対局の段階で、対局が進み観測可能な情報(例えば、4人のプレイヤーが捨てた公開牌など)が増えてくると、オフラインで訓練されたポリシーを、特定の対局に合わせて徐々に修正し、適応させるものです。


以上今回はここまで。

非常にざっくりとまとめると今までのやり方だけだと麻雀AI作るの難しいから1,2,3の独自の観点で新たなモデル作ったということでしょうか。


この記事が気に入ったらサポートをしてみませんか?