見出し画像

スマブラゲームAI下調べ編without 桜井

こういうタイトルの文章はほとんどが面白くないと思っています。

そんな私が最近面白いと思った取り組みの一つがスマブラ×ゲームAIの取り組みです。

日本語と英語でまあまあ調べてyoutube上で発見できたのは
https://www.youtube.com/@user-vq1cg5yo8q  @ねぎとろ
https://www.youtube.com/@mushicore @むしこあ
https://www.youtube.com/@deepsmash7173 @Deepsmash
こちらの3人。

なんか一年前くらいを皮切りにみんなやめてるのは任天堂の手先にでもやられたんでしょうか。それはそのはずで、スマブラSPはゲームシステムについて広く知られていないことが広く知られています。ところが以下の記事(https://pc.watch.impress.co.jp/docs/news/yajiuma/1046552.html)では「マサチューセッツ工科大学(MIT)のコンピュータ科学・人工知能研究所(CSAIL)のチームは、アクション対戦ゲーム「大乱闘スマッシュブラザーズDX」のAIを開発し、同ゲームの世界ランカーと対等に渡り合えるようになった経緯を記した論文を発表した。」と2017年2月27日。海外のMMD文化のおかげもあってか、なんかうまくいってるみたいです。プレイに関してはDX未プレイも相まってよくわかりませんでしたが、なんか強そうでした。有識者の方にチェックをお願いしたいところではあります。

この記事が私にスマブラ×ゲームAIへの取り組みを調べるガソリンとなっていました。ただ技術的なことについては何も知らないといっても過言ではない私は例の愛子ちゃんに馬鹿正直に全て告白することにしました。

愛子とのスクショ♡

なんか無難なことしか言わないというか、この程度の抽象度なら、ある程度理解はできますね。これをたたき台にして考えを進められそうです。ですがここからはちょっとばかし前提知識がいります。
この記事を読む前提知識としての強化学習は、僕じゃなくて愛子に任せますね。「強化学習とは、試行錯誤を通じて最適な行動を身につける学習法です。人間で例えると、火傷をして学習し、二度と触るな、という反応の仕方と同じです。

コンピュータがゲームをプレイする場合を考えましょう。最初は下手でしたが、何度もプレイを重ねる内に上達していきます。これはコンピュータが自ら学習している証拠です。

学習のキーポイントは「報酬」です。勝利したら報酬を大きく、負けたら報酬を小さく設定します。コンピュータは試行錯誤を通じ、高い報酬を得られる行動を身につけるのです。

要は、人間の学習法を模倣したアルゴリズムが強化学習です。反復学習によって賢くなるのは人間と同じなのです。」)

悪くないんじゃないでしょうか。
まず報酬の設定についてですが、これが多分曲者です。初代マリオの強化学習ゲームAI(https://youtu.be/qUjslOnP2jY?si=uAoWJs7ttx0-6d9I)を例にとります。この動画の例では、ある程度適切な(ゴールにクリアしえる)報酬の設定から報酬を進んだ距離からスコア重視に切り替えたことで、マリオが前に進まなくなったことが示されています。もちろんこれ以外にも報酬となるべき「良さ」を示す指標はたくさんあるはずです。

「良さ」を煮詰めていくことが報酬設定の肝かもしれません。ここで悲報。スマブラにおける「良さ」を適切に示す指標って何だろうということですね。「有利展開」という言葉がスマブラ上位勢に使われて久しいですが、この言葉は主に崖展開とか復帰阻止展開で使われるものです。でも、それだけか?仮にそうだとしてそれに最も適したキャラは何か?疑問符がつきません。このようなことを考えて、試行錯誤することが求められる気がしました。しかし、全くできないというわけでもなさそうなので愛子により詳しく実装について聞いてみました。

愛子オ

私の知識では、なんとかそのプロセスについて大まかに理解できる程度で実際にできるかがわからない感じです。これを検証するために1か月以内に身近な有識者に聞いてみて、情報収集をしよう。こういう運びになりました。私自身ウキウキしながらその時を待ちたいと思います。

(ふかずちゃん: 2024 01/08 3:21 語呂いい)

ご自由に〜