見出し画像

動物の知能を人工知能に活かせ! 強化学習コンペ "Animal-AI Olympics" の紹介

こんにちは! フィフス・フロアのハマーン・カーンこと濱口です。

最近、 Animal-AI Olympics というめちゃめちゃおもしろそうなコンテストがあることを知ったので紹介します。

専門的なコンテストではありますが、この分野に詳しくない方に向けても単純に「見ててどうおもしろいのか」が伝わるように紹介したいと思います。

コンテストに参加しようと思う人に向けては、その概要の翻訳や補足が役に立てば良いなと思います。私たちはこのコンテストをつい最近知ったので9月の第一締切には間に合いませんが、11月の第二締切に向けて挑戦したいと思っています。参加される方はぜひ情報共有しましょう。

Animal-AI Olympics とは

(このセクションは、2段落読んで「よくわかんねーな」と思ったら、真ん中のほうにある動画まで読み飛ばしても大丈夫です!)

Imperial College Londonが中心となって主催する強化学習のコンテストです。スポンサー(協賛)は Amazon や Unity を筆頭に、日本の NPO である全脳アーキテクチャ・イニシアティブもそのひとつとなっています。

独特でおもしろいなと思うのは、「動物の知能」をコンセプトに据えているところです。「動物の知能をコンセプトに」とってもあまりピンとこない人もいると思うので、この点をわかりやすくまとめている公式サイトトップページに掲載されている序文を抄訳しておきます。

近年、人工知能は飛躍的な進歩を見せ、幅広い分野のタスクで人間を凌駕する性能に到達している。もはや囲碁でも、クイズでも、ある意味においては医療でさえ、最も優れているのは人間ではない。にもかかわらず、最新鋭の人工知能でさえ、想定外の環境変化への適応においては、単純な動物に勝ることができない。このコンペティションでは、最も優れた人工知能を動物界と対決させ、現在の人工知能の到達点が、その得意分野において、自然進化の到達点に比類する段階にあるのかを見極める。

我々は新しい種類の人工知能コンペティションを提案する。個別具体的なタスクを与える代わりに、良く定義されたアリーナ(4月末に公開)と、そのアリーナで試験すべき認知的能力のリストを提供する。どの試験でも、同じエージェント、同じ入力、同じアクションを用いる。目標は常に、過去に見た物体を操作して同じフードを取得するというものとなる。しかし、アリーナの詳細なレイアウトやテストのバリエーションはコンペティションが終了するまで公開されない。

我々はこれが困難な挑戦となることを狙う。このコンペティションで勝利するためには、ロバストに振舞い、未知の状況を一般化することのできる人工知能システムが必要となるはずだ。満点を取るには、現在の能力をはるかに超えた人工知能のブレークスルーが必要だろう。しかし小さな進歩であっても、データから便利なパターンを見出すことに留まらず、そこから想像を広げて世界がどのように動くかを理解することが可能だということを示すことができるだろう。

ということです。

もちろん「動物の知能」を機械学習の文脈に持ち込むこと自体は目新しいことではなく、例えば強化学習にも応用されているニューラルネットは、ヒトを始めとした動物に広く見られる脳の仕組みを参考にしたモデルです(よく誤解されますが完全に脳をモデル化しているわけではありません。ニューラルネットとは直接関係ないですが、「脳が電気信号(だけ)で動く」というのも、今わかっていることの半分くらいしか説明しておらず、ほとんど都市伝説だと思います)。

公式サイトでは "behave", "affordance" などの言葉が良く使われていて、「動物の知能」のミクロな特徴のみならず、習性などのマクロな性質も参考にすべきことが暗に示されているように感じます。

どんな内容?

強化学習にあまり詳しくない方からすると、「結局どんなコンテストなの?」と思うかもしれないので、簡単に説明します。

強化学習は機械学習の一分野で、「未知の環境との相互作用を通して、逐次的に意思決定をする問題」を扱う点が特徴です。環境が未知である点で動的/線形計画法などの「プランニング問題」との違いがあり、意思決定が環境に影響を与える点で素朴な「識別問題」とも異なります。

強化学習はその性質からそもそもよく動物の進化の過程との関連性が話題になります。このコンペティションは、その点を特に強調している点がおもしろいと思います。

といってもピンとこない方もいると思うので、目で見てイメージを掴みましょう。こういう環境の中を、自分たちが書いたプログラム(エージェントと呼びます)が探索して、なるべく多くの報酬(「餌」=「黄土色か緑の球」)を集める、というゲームだと思ってください。

(私がゲーム下手なのがよくわかりますね……というのは置いておいて)

この環境(「アリーナ」と呼ばれます)は Unity で構築されていて、ユーザ自身が操作して動き回ることもできます。操作キーはお馴染みの WASD ですが、ラジコン操作です(詳細は Quick Start Guide 参照。細かく言うと加減速の概念があるのでバイオのラジコン操作とも少し違います)。

意外とシンプルに見えると思います。どうやら元々はもっとリアリスティックな感じを予定していたところ、運営陣の内部で難易度調整をした結果この水準に落ち着いた、ということだそうです。

もちろん、人間が操作して出したスコアで競っても仕方がないです。というのは、公式サイトでも説明されている通り、人間が挑戦すれば容易にパーフェクトなスコアを出すことができます。人間どころか、ある程度高等な動物なら容易にクリアできる内容とされています(動物は Unity でゲームをプレイすることはできないので、現実で同様のタスクをさせたら、ということです)。

公式の序文にもある通り、興味深いのは、一見簡単に思えるそんなことが、今の人工知能にはまだまだ難しい、というところです。

このコンテストが話題になれば(たぶんなると思います)、もしかしたら高順位を出したエージェントがプレイする動画が公開されるかもしれません。ここで書いたようなことを念頭に置いて観戦すると、より楽しめるものと思います。

ちなみに、「人間がプレイできるなら、攻略手順をプログラムとして書いちゃえばいいだけでは?」と思うかもしれませんが、当然、試験本番の舞台となる環境は明かされません。なので、一般的なビデオゲームでいうなら「アクション性のある不思議のダンジョン」を想像すると良いと思います。

開催概要

開催概要はこのページにまとまっています。「ルール」というページ名なので、なんとなく競技のルールかと思ってしまいますが、そうではなく「大会の運営指針」です。競技のルールは「タスク」の節で説明されます。

参加要件
18歳以上の個人かチームであること。チームの場合、最大5名。

スケジュール
・9月2日 20:59 JST 第一試験フェーズ。これに遅れた投稿は選外となる。
・11月2日 20:59 JST 第二(最終)試験フェーズ。これに遅れた投稿は選外となる。

どちらも「選外」とだけ書かれているので、第二試験フェーズから参加ということはできないのだろうか…… 🤔 と思って問い合わせたところ、「参加はできる。 AWS 賞の候補からは外れるが、それ以外の賞については影響しない」という回答でした。

この記事を読んでこのコンテストを知ったという方も、11月の第二締切なら間に合いそうですね!


いくつかの賞があります。

Overall Prizes (総合成績): 1位~3位
WBA Prize: 協賛である全脳アーキテクチャ・イニシアティブから、「生物学的観点からみて最も妥当性のある応募」に贈られる。
Category Prizes (カテゴリ賞): 各カテゴリ(後述)での優秀成績を得た応募に贈られる。

カテゴリ
このコンテストには「カテゴリ」というものがあり、難易度や性質の面で異なる10種類のアリーナでの成績を評価されます。

カテゴリの詳細は、公式サイトの補足として書かれた主催者のブログ記事に書かれています。ここでは抜粋して抄訳を紹介します。

1. : 多くの動物は餌によって動機付けできる。この性質は動物の認知能力試験で用いられている。同じことがここでも当てはまる。各試験は、必ず正の報酬をもたらす「フード」アイテムを時間内になるべく多く入手することが目標となる(基本的にはフードを1つ獲得することを意味する)。導入用のカテゴリで、エージェントがしっかりとフードを取得できるかどうか試験する。障害物は含まれない。
2. 選好: このカテゴリでは、エージェントが最も高報酬の行動系列を選択する能力を試験する。細かく見ると種によって異なるものの、たいていの動物はより多くの餌やより簡単に手に入る餌に対する選好を示す。一部の種では、最も高報酬な長期的な行動系列を選択する能力を持つものもある。
3. 障害物: このカテゴリでは、動かすことができない障害物が存在し、エージェントの移動が阻害される。このカテゴリに合格するためには、エージェントは環境を探索する必要があるだろう。探索は動物行動の重要な要素だ。
4. 回避行動: このカテゴリでは、エージェントが接触すると負の報酬が発生する高温ゾーンと即死ゾーンが導入される。生体組織が獲得した致命的に重要な能力のひとつが、負の刺激を回避する能力だ。これらを、進入すれば試験がリセットされる赤色の進入禁止エリアを設けることで模している。この試験では、エージェントがそのような負の刺激に気づき、回避する能力があることを確認する。
5. 空間認識: このカテゴリでは、エージェントが環境の空間的アフォーダンスを理解する能力を試験する。より複雑な航行能力や、環境において働く簡単な物理法則の理解を試験する。
6. 一般化: このカテゴリでは、エージェントにとって表層的には異なって見えても性質や解法は同じであるような変種が含まれる。これらは標準的な構成ファイルによって提供される。
7. 内面モデル: このカテゴリでは、エージェント自身がその内部に環境をモデル化する能力を確認する。これらの試験では、開始してしばらくすると消灯されるため、エージェントは暗闇の中を航行するために、環境のレイアウトを記憶する必要がある。多くの動物はこのような能力を有するが、ここでのエージェントに比べればより多くの感覚器官を入力として持っている。したがって、視覚的入力のみ持つエージェントに合わせて、この試験は非常に簡素化された性質のものとなっている。
8. 物体の永続性: 多くの動物は、物体が視界から消えても引き続き存在することを理解しているように思われる。これは我々の世界の、また本試験の環境の性質だが、多くの人工知能システムでは必ずしも考慮されていない。単純な操作であっても、物体の永続性の理解がなければ実現不可能なものが存在する。こうしたことを人工知能システムにどのように組み込まれるかは興味深いだろう。
9. より進んだ選好: このカテゴリでは、考えうる最高の報酬を確実に得るために、より複雑な意思決定をする能力を試験する。異なる報酬に繋がる選択肢が含まれる試験を想定せよ。
10. 因果関係の認識: 最後に試験するのは、行動を始める前にその結果をあらかじめ想像して計画を立てる能力などの、因果関係の理解能力を確かめるものだ。試験はどれも、人間でない動物が合格できるものだ。その中には、動物界における知性の例としては衝撃的なものも含まれている。

いずれもとてもおもしろそうですね。 (5) くらいまでは素朴なプログラムでもなんとかなりそうですが、後半のほうはしっかりと強化学習の基礎を押さえて臨まないとかなり難しそうです。

おわりに

専門外なのに読んでくれた皆さま、ありがとございます! Animal-AI Olympics のおもしろさ、伝わったでしょうか? この先もまた動きがあればご紹介したいと思います。ぜひ楽しみにしてください!

参加を検討している方も最後まで読んでくださってありがとうございます。ぜひ情報共有しましょう! ちなみに、協賛団体でもある全脳アーキテクチャ勉強会の主導で、8月21日にAnimal-AI Olympics キックオフミートアップというイベントが開催されます。日本からの参加者向けのガイダンスやチームビルディングをする会となるようです。「参加したいけど、個人だと不安 or やる気がでない……」という方にちょうど良い会なのではないでしょうか。

それでは!


この記事が気に入ったらサポートをしてみませんか?