東京大学松尾研究室リサーチディレクター　中山浩太郎さんが語る「AI革命と世界の動向」@SingularityU Japan

窪田望

2019年7月30日 16:15

私は松尾研究室の助教、講師をしており、深層学習というYoshuaが書いた本を監訳したりしています。他にも9冊以上プログラミングや機械学習の本を執筆しています。

AI革命とAI技術の歴史

この4年間でAI技術が証明したことはかなり多くあります。

・自動運転
・碁の世界チャンピオンを倒せる
・あらゆる言語翻訳
・医者より高精度にガンを発見できる

人工知能の定義

多様な意見があり、そもそも知能の定義が難しい。「人工的に作られた」「人間のような知性」。なので定義は実は学者によってもバラバラです。

浅田先生は知能の定義が明確でないので、人工知能を明確には定義できない、なんておっしゃっています。

AIの歴史

第一次AIブーム：1956-1960s
・ダートマスワークショップ
・人工知能という言葉が決まる
・世界最初のコンピューターENIAC（1946）のわずか10年後
・数学の定理証明・チェスを指す人工知能など

冬の時代：1970s-

第二次AIブーム：1980s
・エキスパートシステム
・医療診断、有機化合物の特定
・第５世代コンピュータープロジェクト：通産省が570億円

冬の時代：1990s

第三次AIブーム（ML&DLの時代）：2006-
・Hiltonらが深い層を持つニューラルネットを実現（2006）

第三次AIブームの主役「Deep Learning」

先ほどの4年の進化が証明したことの全ては実はDeep Learningが進化した結果です。研究者としてショックだったのはアルファ碁のニュースです。

Googleが2014年に買収したDeepMindがスタートさせました。

アルファ碁ゼロ（2017年10月）
- プロ棋士の棋譜データなしで学習
- それまでのアルファ碁よりさらに強い

アルファゼロ（2017年12月）
- 将棋、チェスでも既存のプログラム（名人より強い）を破る。
- ゼロから学習し、将棋は2時間、チェスは4時間

Deep Learningとは？

・人工知能における50年来のブレークスルー
・特徴表現の抽出（表現学習）
・多層の深いニューラルネットワーク
・多用なバリエーション
　- CNNs
　- Autoencoders
-RNNs

この事件からDeep Learningが一気に普及しました。これまで1%-2%の向上/年だたたのが一気に10%以上あがったんですね。

特徴量の設計と問題

ヒストグラムなどの単純な特徴量の限界があったり、人間が記述できる特徴の限界もあります。Huskey or malamuteを区別できるでしょうか。どっちかを識別するのは難しいですよね。

どういった特徴を入れると、どっちのクラスに属するかという問題を、たくさんの特徴量を抽出することで、解決していくわけです。

では何が学習されるのでしょうか。低いレイヤーであればあるほど、プリミティブな特徴量を扱います。

それを元に上位にいけばいくほどその物体になっていきます。画像認識と応用範囲として、一般物体認識、医療画像解析、表情認識、セグメンテーション、文字認識、顔認識なども可能になっていきました。

例えば、こちらの動画をも見てください。車と車の車間距離や、車自体の認識などはこんなレベルでできるようになってきています。

これはすべてニューラルネットワークをベースにしています。

例えば、下から6という手書きの文字があったとして、上の方に情報が送られてきて、最終的にこの数字が0-9のどれかというのをOutputしていきます。合っているときは正解、合っていないときは不正解だとAIに伝えていきます。そうなると、合っているところに寄与したネットワークは大きくなり、合っていないところに寄与したネットワークは小さくなります。その結果、6であることがわかるようになっていきます。

これ会社の組織図に似ています。我々は、現場の人から情報を受け取って、上に情報を出します。組織のトップの人は意思決定をしないといけません。この人の情報を参考に意思決定したら間違えた、となったら、信頼度を下げます。逆のケースは信頼度を下げます。こういう考え方と近いですね。

Deep Learningは汎用性の高さがすごい。

ニューラルネットワークはシンプルなので、あらゆるアプリケーションに適用できます。

画像を認識したり、異常を検知したり応用しやすくて、汎用性が高いんですね。

カンブリア爆発と眼をもった機械

カンブリア爆発は「今日見られる動物の門が出揃った現象」。アンドリュー・パーカーは「眼の誕生」がその原因だったという光スイッチ説を提唱しました。眼の誕生によって食べるもの・食べないものを識別しやすくなったり、競争で勝ちやすくなったりしました。ディープラーニングも眼の誕生に匹敵するインパクトを持ったものになります。

産業別変革についてですが、ほぼ全ての産業に変革を与えることでしょう。

自動車産業では「自動運転を制する企業が世界を制す」と言われています。無人タクシー・地域限定・高速道路などで運用が始まっています。ドライバーが不要になる時代が目の前まで来ています。

医療画像認識の世界では、医者の判断補助をするテクノロジーが使われています。難しいと言われていた胸部X写真の解析や、細胞片を見てどこで問題があるかも判別がつくようになりました。これは医者の仕事を奪うわけではなく、AIが解析したものを元に診断に役立てることによって、もっとも高い精度を持って医療を提供することができるようになります。

農業の世界でも、農家は経営者へ、の時代になっています。IT技術による工場化・高集積化はすでに急速に進んでいます。検査・異常発見なども可能です。

メーカーも低コスト化＆小規模・分散生産方式をやりはじめています。製造パイプラインの効率化・ロバスト化ですね。

現状は工場の自動化についてはかなり進んでいます。超高精度ロボット＋専門的な制御プログラミングですね。

未来には、眼のあるロボットによる製造パイプラインの刷新ができますし、異常検査もできるようになります。さらには業務も自動化できるでしょう。

セカンドインパクト

眼がファーストインパクトだとすると、すでに世界はセカンドインパクトのフェーズにいます。一つは自然言語処理です。かなり自然に翻訳されるようになっています。

Image Captioningは画像を元に、その画像を説明する文章を自動生成してくれます。

レゴで二人の女性が遊んでいる、みたいなキャプションがつくわけですね。また、その逆のものもあります。言語を入れると画像を生成してくれるんですね。

「STOPサインが青い空に浮いている」、みたいな普通だとありえない画像も生成してくれたりします。

Transformer&BERT

画像と同じように、たくさん学習したデータを元に、ちょっとのデータだけで学習したことにすることができるようになってきています。学習済みデータの再活用ができるようになっているわけですね。

DeepMind DQN の衝撃

一言でいうと、ゲームをプレイするんです。これだけだと普通だと思いますよね。でも、これがすごいのはAIが画像を見ながらプレイしているということなんです。今このブロックがどういう状況かを見て、戦略を立てて、プレイしているんです。端っこからブロックを入れると高得点になることを分析して、戦略を立てて実行しているんです。ディープラーニングと強化学習の走りでした。

仕組みと結果

これがすごいのは1つのモデルであらゆるゲームでの勝ち方を学習するということなんですね。

右の線は人間と対等に戦えるレベルです。凌駕していることがわかります。

AlphaGoもこの原理に基づいています。

この例も見てください。ロボに応用しています。

最初はうまくいかないんですが、だんだんうまくなっていくのがわかります。これをGoogleなどは1台のみならず、100台でやろうとしています。

とはいえ、現実の世界でなんども学習するのは難しいので、シミュレーターを使うという考え方が出てきました。

シミュレーターで学習したものを世界に適用すると普通はうまくいかないんですが、「Domain Randomazation」という技術を使うと、解決しやすくなります。簡単に言うと、ばらつきを与えて、それでも動作するようにすると、現実空間に適用しやすくなるという考え方です。これで100台の同時稼働などはしなくてもよくなりました。

3つ目は生成モデルです。識別モデルがこれまでだったとすると、生成モデルがあります。