アルファ碁とは何か

2019年5月14日 02:37

人工知能が近年注目されている中で、特に注目を浴びたのがアルファ碁でしょう。

2016年3月9日、人工知能が世界最高レベルの囲碁プロ棋士、韓国のイ・セドル九段を4勝1敗で破るという大きな出来事がありました。これで勝利したのが「アルファ碁」です。
これまでコンピューターはチェスや将棋では人間が勝利していますが、囲碁は着手数がはるかに多い為、コンピュータが人間に勝つにはまだ、10年以上先だろうと言われていました。それが突然コンピュータが人間に勝利した為、世間に衝撃を与えました。

アルファ碁はGoogle傘下の「ディープマインド社」が開発したAIシステムで、人工知能(ディープラーニング)を用いることで従来と違うアプローチで人間と勝負しました。

ディープマインド社は2011年に米電気自動車(EV)メーカー、テスラのイーロン・マスク氏ら大物起業家や投資家から出資を受け設立されたイギリスの人工知能ベンチャー企業です。2014年にGoogleによって買収され、「Googleディープマインド」に社名が改称されました。
ディープマインドの社員は約500人でその半数を研究者が占めます。1つの組織が抱える深層学習の研究者の数としては世界最大級です。ディープマインド社のCEO デミス・ハサビス氏は、知性の解明という難題を、人類を月面に送る挑戦になぞらえて「AI版アポロ計画」と呼んでいます。

デミス・ハサビス

創業者の人1人である、デミス・ハサビス(同社のCEO)は、イギリスの人口知能研究者で、脳科学者、コンピューターゲームデザイナー、世界的なゲームプレイヤー(チェス、将棋、ポーカーなど)である。4歳の時からチェスに没頭し始めて2週間もたたないうちに大人を負かすようになり、チェスの天才と言われていました。

その後コンピューターに興味を持ち、11歳でオセロのプログラムを書き、15歳のときにケンブリッジ大学コンピューターサイエンス学部の試験に合格しました。

卒業するとゲーム会社に就職、17歳のときにハサビスは、数百万の販売数を送る人気ゲーム「テーマパーク」を開発し、大学に通いながら、人工知能の今後の可能性に気づき、「人工知能はこれから劇的に進化する」という考えを深めていったといいます。

Googleのエリックシュミット会長は「現代の英国のサクセスストーリーの1つ」とハサビス氏らの功績を高く評価しています。
(また、デイビッド・シルバー氏もアルファ碁の開発の中心人物とし有名です)

デミス・ハサビス率いる「ディープマインド社」はある画期的なAIシステムを開発しました。それは「DQN」というAIシステムです。2015年2月、科学誌「ネイチャー」にも論文が発表され、話題となりました。

この「DQN」が画期的だったのは、人間が教える事なくコンピューターが自立して学習し、賢くなっていくことです。日本でお馴染みのゲーム「パックマン」や「スペースインベーダー」などでそれを証明しました。

開発チームは「DQN」にゲームをプレイさせ、はじめは下手ですが、プレイを続けることによって徐々に上手くできるようになります。どのようにして上手くなるのかというと、DQNは「報酬」を得ることによって賢くなっていきます。ゲームの得点を報酬とみなし、何度も失敗し得点ができるように努力を重ねるうちに、少しずつ上達し、やがてうまく得点ができるようになります。「DQN」は短期間のうちにゲームの上級者の得点を上回る結果を残しました。すべてのゲームで人間を上回るわけではないですが、単純なゲームなら、人間よりもコンピューターが上回ります。

これがすごいのは、人間がコンピューターに指示を与えていない点です。これまでのコンピューターなら、人間が全てプログラムミングしなければコンピュータを動かすことができませんでした。しかし、DQNは自ら学習し、正解を求め、賢くなったのが凄いところです。

ここで強調したいのは、アルファ碁はこの「DQN」のもと賢くなったことです。そしてその「DQN」は「ディープラーニング」の技術を使っていることです。

アルファ碁は「ディープラーニング」と「モンテカルロ木探索」と「強化学習」という3つの手法をうまく組み合わせています。大量のプロ棋士の棋譜をデータとしてディープランニングによってある程度の強さのプログラムを作り、そのプログラム同士の強化学習によってさらに強くしました。これまでコンピュータ囲碁で成功しなかった評価関数を、実質的につくったことがアルファ碁の大きな特徴です。手を決める部分では、従来からの手法である「モンテカルロ木探索」を使っています。

アルファ碁が人々を驚かせた大きな大きな要因は、囲碁のプロも想像できないような手で人間に勝利したことです。

アルファ碁はイ・セドルと対戦した時に、一見、意味のない悪手を打ったように見えた一手が、ゲームが進むにつれて、その一手が、有効である様な試合運びになり、結局その後も、アルファ碁が優位に試合を進め、勝利しました。実況解説者は、アルファ碁が、人間には理解できないような独特な手法で勝利したことに驚きを隠せずにいました。アルファ碁は人間と同等のレベルの対局をしたのではなく、人間の勘や経験則のようなのもを超えるレベルの一手を繰り出したのです。

これは間違いなく画期的なことですが、人間が理解できない手法で勝利したことは、ある意味、不気味に感じる人もいるでしょう。専門家でも、アルファ碁がなぜ、人間には理解できな独特の一手を打てたのか、説明できません。コンピュータが自分で過去の3000万回の棋譜を学習し学んだのです。

アルファ碁は、どのようにして囲碁を学ぶのか

アルファ碁はどのようにして囲碁を学ぶのでしょうか。
まず、囲碁対局サイトにある3000万手に及ぶ膨大なデータをアルファ碁に読み込ませた。そこで用いたのが、「ニューラルネットワーク」の一種の「ディープラーニング」です。

ここで注目したいのは「アルファ碁」は囲碁のルールは理解していないことです。得点という報酬を得て成長していきます。例えば、特別な技を使ったら、高得点がもらえるなど、より早く、高い得点を得るようになる仕組みです。

こうしてアルファ碁は自ら高得点を取るように(報酬を得られるように)学習していきます。もちろん、人間のように休んだり、疲れるようなことはありません。

しかしアルファ碁はこれだけでは人間のプロ棋士に勝てるようにはなりませんでした。
3000万手ではまだまだ、期待される結果は出せなかったのです。
そこで、開発チームは、コンピューター同士の対局によるトレーニングを積み「経験値」を大幅に増やしました。

開発チームはディープラーニングの手法を使い、コンピューター同士の対局によるトレーニングを積ませました。異なる囲碁システムと対局させたり、いろいろなパターンで対局させたりと、さらに膨大な経験を積ませることによって、アルファ碁はデータを蓄積していきました。このように、コンピューターにトレーニングを積ませることを「強化学習」といいます。

そして、ついに開発チームは、人類最高レベルの囲碁棋士に勝利するまで力を手に入れたのです。

その後もアルファ碁の開発は続けられました。
今度は柯潔(カ・ケツ)九段という中国ランキング1位の世界最強棋士とアルファ碁は対戦することになりました。

アルファ碁はカ・ケツ九段との対戦に備えて、さらに改良を加えました。そこで生まれたのが「アルファ碁マスター」です。Googleが自ら設計した最新のAI用半導体「クラウドTPU」を採用し、計算能力などハード面の性能も大幅に強化しました。以前の「イ・セドル九段」との対戦に比べても、さらに読みが深くなり大局観に磨きがかかりました。

結果、「アルファ碁マスター」とカ・ケツ九段の勝負は3勝でアルファ碁マスターが勝利します。アルファ碁マスターが異次元の強さを見せての完全勝利です。

カ・ケツ九段は3番勝負の最終日に、対局開始から3時間後、負けを覚悟した時、10分ほど席を外し、むせび泣きました。人類最強の棋士として、アルファ碁マスターに勝つ自信を示していただけに、相当悔しかったのでしょう。カ・ケツ九段は対戦後、次のような言葉を述べています。「アルファ碁マスターは完璧すぎた。アルファ碁の弱みを見つけられなかった。かつて見たことがなく、遠い未来でも想像できない。人間との差を1個人で補う事はできないようになる。」

対戦後プロ棋士達は、アルファ碁マスターは既に人間の力の及ばない領域に達したと声を揃えました。

その後も、アルファ碁マスターと中国のトップ棋士5人がチームを組んで行う「相談碁」形式の対戦が行われましたが、アルファ碁マスターがあっけなく勝利しました。
その後、ディープマインド社は一度はアルファ碁の開発は終了すると発表しましたが、人間の手を加えなくても、「自ら学習できるアルファ碁」を開発するという目的のもと、研究は続けられました。

そして、2017年10月、ディープマインド社は新たなアルファ碁を発表します。その名は「アルファ碁ゼロ」です。これまでと違うのは、以前のアルファ碁は大量のプロの対戦データを学習して強くなりましたが、今回は人が手本を示さなくてもAI同士の対局を繰り返し、独学で勝率の最も高い打ち方を編み出しました。

結果、アルファ碁ゼロは、以前のアルファ碁を圧倒し、さらに強くなりました。アルファ碁ゼロには碁のルールだけを教えます。その後自己対戦を繰り返すことで急激に上達しました。実験3日で、2016年3月にイ・セドル九段に勝利した「アルファ碁」に戦全勝をあげました。その後40日後にはカ・ケツ九段に3連勝した時の「アルファ碁マスター」を上回る強さを見せました。この時はプロ棋士でもわからない未知の定石を操っていたといいます。まさに人間の定石に頼らないアルファ碁が生まれています。これまでは人間の対局データを参考に学習していたため、人間の積み重ねた知見の延長線上の強さに過ぎないとの指摘がありましたが、アルファ碁ゼロから、人工知能が独自に学習する「教師なし学習」と呼ぶ手法を追求しました。

その結果、アルファ碁ゼロは人間の発想にとらわれない人工知能となりました。

2017年12月、アルファ碁はさらに進化しました。アルファ碁ゼロを改良し、将棋やチェスにも応用した「アルファ・ゼロ」を開発しました。

過去の対戦データ等の学習をせず、独学で試行錯誤を繰り返し、数時間で現場の世界最強ソフトを超える強さを見せました。将棋、チェス、囲碁のいずれも最強ということです。将棋、チェス、囲碁という汎用性を持ち合わせたところが大きな進歩です。異なるゲームに汎用性で使える最強クラスのAIは初めてのことです。
2017年の世界コンピュータ将棋選手権で優勝したソフト「エルモ」と16年のチェス世界大会で優勝した「ストックフィッシュ」、囲碁の「アルファ碁」と強さを比較した。

その指標を見るとアルファ・ゼロが将棋では約2時間、チェスでは約4時間、囲碁では約8時間学習した時点で各ソフトを上回る実力を見せました。
実際に各ソフトと100回試合をしたところ、将棋は90勝8敗2分け、チェスは28勝無敗72分け、囲碁は60勝40敗とアルファ・ゼロが勝ち越しました。複数のゲームで汎用性を持って使える人工知能のソフトははじめてのことです。しかも、人間がこれまで培ってきて考案された定石など何も教わることなく、アルファ・ゼロは自力で学習したソフトということで、今後ゲーム以外でも応用されることが期待されます。

実際にディープマインド社はアルファ碁の成果を、今後、様々な人間には解けなかった難問の解決に挑もうとしています。例えば難病の早期発見や新素材の開発、エネルギー問題の解決、環境保全、生命の起源解明等に応用しようとしています。今後重要な事は、新しい分野に応用するためにはその分野に関する知識はもちろん、何が重要で何が難しいかというと課題の理解が欠かせません。

具体的には、それぞれの分野で最も優れた専門家や企業、学者、と組んで課題を整理して、アルゴリズムが課題の解決に有効かを見極める作業が重要になります。

しかし、アルファ碁には課題もあります。それは消費電力です。人間の脳の消費エネルギーは思考時で21ワットに対し、アルファ碁の消費電力は25万ワットとされています。それは約1万2千人分にもなります。今後はAIが普及していくにつれますます大量の計算が必要になり、消費電力も膨大になっていきます。そのため消費電力の少ない半導体を導入することが必要になってきます。

ハサビス氏は今後に向けて次のように述べます。
「脳の働きは非常に複雑だがコンピューターで再現できないものはないというのが我々の現時点の見方だ。AIはいずれAGI(汎用人工知能)的な能力を持つようになる。目指すのは用途を限定したAIではなく、様々な課題をこなせる汎用AI (AGI)だ。囲碁では人間との「対決」に関心が集まりましたが、AIはあくまで人間の役に立つ「道具」です。人工知能は与えられた目的に反し、想定したものとは違う形で学習し、結果として暴走してしまう可能性もあります。人間の脳の動きは「機能的磁気共鳴画像装置(fMRI)を使って視覚化できるが、「バーチャルな脳」になりつつあるAIにもこうした装置が必要だ。10年以内にも開発する。意思決定のプロセスが人間から見えない「ブラックボックス化」にも対策を講じている。AIは人間の知力を前進させ、全人類を前向きな影響をもたらす可能性がある。

この記事が気に入ったらサポートをしてみませんか？