G検定試験対策①人工知能とは何か


はじめに


日本ディープラーニング協会が主催するG検定。

AI(人工知能)のビジネス活用の資格として徐々に認知が広まってきてるように思います。

2019年3月9日の4回目の試験を実施し、受験者が1万人に迫り、合格者も6千人を超えるなど徐々に認知が広まって受験する人も増え続けています。

しかし、まだまだ始まったばかりの試験で合格するための学習環境が整っているとはいえず、合格するためにどのように学習を進めればいいのかわからないのが現状です。

そのため、中には高額な試験対策セミナーや、試験対策講座を受講する方もいると思います。

しかし、合格した私から言わせますと、そこまで高額なお金をかけて学習しなくてもG検定に合格することは可能です。

そこで、G検定が始まって初期に合格した私が、重要だと思う所をまとめ、G検定の合格を目指す方向けにG検定試験対策を作りました。

G検定は機械学習、ディープラーニングの技術的な問題はもちろんですが、その他に、 AIを取り巻く環境、時事問題などのニュース、法律、倫理、産業への応用、現行の理論など広範囲に問題が出題されます。

しかし、そのための対策の学習環境はあまり整っていないと思います。そこで、私は、 AIを取り巻く環境、時事問題、法律、倫理、産業の応用、現行の理論を重点にG検定対策として重要事項をまとめました。


ぜひお役に立てれば幸いです。




人工知能の定義

AI(人工知能)、その意味する範囲は広大です。
人工知能の定義にはこれと言うものはなく、専門家によってそれぞれ定義は異なります。

東京大学の松尾豊准教授は人工知能を次のように定義しています。

人工的につくられた人間のような知能、ないしはそれをつくる技術


現在第3次 AIブームといわれており、何でもかんでも AIといわれており、少々混乱が生じています。
また AIは常に進化を続けており、使うのが当たり前になったものは、 AIと呼ばれなくなるということが起きます。
例えば、ひと昔前は「かな漢字変換」や「検索エンジン」などは AIといわれていましたが、現在は呼ばれていません。このようなことを「AI効果」と呼びます。


人工知能の枠組み

人工知能 〉機械学習 〉ニューラルネットワーク 〉深層学習(ディープラーニング)

1番広い概念が人工知能。その中に機械学習があり、機械学習の中にニューラルネットワークがあり、またその中に深層学習が含まれます。このような枠組みになります。


人工知能は特化型A Iと汎用 AIの2つに分類される


現在は家電製品などいろいろなところに人工知能搭載などとうたわれていますが、その全ては特化型人工知能です。現在の人工知能は1つのタクスに特化させないと成果が出ないため、全てが細分化された使われ方をしています。そのため特化型人工知能と呼ばれています。
それに対して、人間のようななんでもできる汎用的な知能を持つ人工知能を汎用人工知能と呼びます。例えばドラえもんのようなロボットがあったら汎用人工知能ですが、現在はそのような汎用人工知能はできていません。
人工知能のまとめ方として、特化型人工知能、汎用人工知能この2種類にまとめられます。

また、ジョン・サールという人が、弱いAI強いAIと分け方を提唱されましたが、弱いAIは特化型人工知能、強いAIは汎用人工知能と同じことを指します。

なかには、汎用人工知能がもうすぐできるのでは、と思っている方がいるかもしれませんが、特化型人工知能(弱いAI)、と汎用人工知能(強いAI)の間にはまだまだ超えられない高い壁があります。汎用人工知能は研究はされていますが、実現するための技術はまだありません。


3回の人工知能ブーム

第一次ブーム:推論、探索による人工知能
第二次ブーム:知識表現による人工知能
第三次ブーム:機械学習による人工知能

この辺の詳しい話は別にお話します。



人工知能という言葉はいつ生まれたのでしょうか。
人工知能という言葉が初めて使われたのは1956年に開催されたダートマス会議でジョン・マッカーシーが初めてAI (artificial intelligence)という言葉を使ったとされています。

第3次AI人工知能ゲームの火付け役とされるディープラーニングは、機械学習の1手法である「ニューラルネットワーク」の中で、さらに階層が深い部分を指しますが、ディープラーニング以前と以後では、一線を画する必要があります。

ディープラーニングは画像や音声等、生のデータに強いという特徴があります。ディープラーニングにより、これまで人間が区別するしかなかった生のデータを、人工知能自身が見分けたり、聞き分けたりできるようになりました。


機械学習とは

機械学習の定義
1959年、アーサー・サミュエルは、機械学習を

明示的にプログラムしなくても学習する能力をコンピューターに与える研究分野


次の説明はトム・ミッチェルの機械学習の定義です。こちらも引用されることが多いので覚えておきましょう。

コンピュータープログラムは、ある種のタスクTと評価尺度Pにおいて、経験Eから学習するとは、タスクTにおけるその性能をPによって評価した際に、経験Eよってそれが改善されている場合である」とした。


人間は過去の経験から学び、新しい課題に取り組むことができます。

それでは機械にも「学習」をさせてみれば良いのではないかというところから機械学習が注目されます。

学習とはパターンに分けること

これまでのデータをもとに、データをパターン分類する

同じ基準でパターン分類すれば、未知のデータも予測できる、すなわち「学習」をしてその結果を活かすことができるのではないか、

機械学習が注目されます。


機械学習における代表的な3つの学習の枠組みは、「教師あり学習」、「教師あり学習」、「強化学習」があります。

機械学習においては、与えられた教師データを、学習に用いる訓練データとテストに用いるテストデータの2つに分けます。訓練データで学習をし、その結果をテストデータに評価するという方法。

2つに分けることにより、訓練データに対しては正しい判断ができますが、テストデータに対しては正しい判断ができないので、過学習を避けることができます。
通常は学習用データに8割、テスト用データに2割程度使います。
未知のデータに対して、当てはまりを良くする能力を「汎化性能」と呼び、過学習を防ぐために行われる処理をを「正則化」と呼びます。
このように、正解データに基づいて学習することを教師あり学習といいます。


教師あり学習の例
データから数値を予測する問題

過去の売り上げから、将来の売り上げを予測したい、など予想される連続値を求める問題を「回帰問題」といいます。


株価が上がるか下がるかを予測するなど、離散値を予測する問題を「分類問題」といいます

分類問題:出力が離散値
回帰問題:出力が連続値

※違いは出力の形式

一方、教師なし学習とは、正解データを用いずに、データの背後にある構造を見つけ出す方法を取ります。代表的な手法にデータの近接性からグループ分けを行うクラスタリングがあります。クラスタリング以外にも、主成分分析次元削減素性学習密度推定などが含まれます。
その他、「1つのパターンに当てはまるデータは、もう一つのパターンにも当てはまる」といったデータのルールを見つけ出す手法であるアソシエーション分析も教師なし学習に含まれます。
入力そのままのものを出力するように(入力を再構成するように)構成したニューラルネットワークの一種である「オートエンコーダー」も教師なし学習の手法の1つになります。

教師なし問題の例

おすすめの商品やメニューを推薦するレコメンデーション、多次元のデータの情報のを圧縮するのに用いられたり、情報を圧縮するために自然言語処理などに用いられたりします。



強化学習」は次のように定式化されす。
環境とインタラクションを行うエージェントにおいて、ある「状態」にいるエージェントが「行動」(環境への作用等)を選択すると、別の「状態」に移り、結果としてそれがよかった悪かったという情報(報酬)が得られるとします。このとき、報酬を最大化するような行動の指針である「方策」を見つけたい。強化学習では、いろいろな行動した後に、その情報(報酬)をもとに、どういう行動すれば良いかの「方策」を自分で学習します。

強化学習の例
AlphaGo、車の自動運転


機械学習を行うフロー

データの収集

データの前処理

機械学習モデリング

モデルのテスト

モデルを公開

ほとんどの場合はデータ収集データの処理に膨大な時間がかかります。例えば、画像認識分野では、用意する写真のデータだけで、数万枚も写真データが必要なことがあります。データ量が多ければたとえコンピュータだとしてもデータの事前準備にかかる時間は掛かります。とても地道な作業になり、データサイエンティストの仕事にかかる時間の8割以上はデータの収集やクレンジングだと言われています。



ニューラルネットワーク


ニューラルネットワークとは、人間の脳を参考にして神経細胞(ニューロン)を多層に重ね合わせた構造の計算機の上でネットワーク上に作成したもので、神経細胞間の伝達のしやすさを調整することにより、学習を模擬する、神経細胞のような(ニューラル)ネットワークのことです。

ニューラルネットワークの元祖は、米国の心理学者フランク・ローゼンブラットが1958年に提案した単純パーセプトロンというニューラルネットワークです。

ディープラーニング(深層学習)
ニューラルネットワークた多層にしたものがディープランニングです。パーセプトロンが登場し、それを多層化ことでディープランニングを簡単に実現できるように見えましたが、そう簡単にはいきませんでした。

まず、ニューラルネットワークを3層より多層にしても学習精度が上がらないという壁にぶつかりました。またニューラルネットワークは1960年代、爆発的なブームを起こしましたが、人工知能の初期から研究者であるマービン・ミンスキーらによって、特定の条件下の単純パーセプトロンでは、直線で分類できるような単純な問題しか解けないということを指摘され、ニューラルネットワークの研究が一旦下火なってしまいます。

その後パーセプトロンの限界については、ニューラルネットワークを多層にして、誤差逆伝播法(バックプロパゲーション)と呼ばれる方法を用いて学習すれば克服できることが示されました。

多層にしても学習精度が上がらないという問題については、入力したものと同じものを出力するように学習する自己符号化器(オートエンコーダ)の研究を足場にして、4層、5層と層を深くしても学習することが可能になりました。

こうした地道な研究の積み重ねにより、学習精度が高い多層のニューロンネットワークの構築が可能になり、また、データ量の増加コンピュータの処理能力が向上したことが追い風となり、ディープラーニングの躍進が始まります。



ディープラーニングの進化の衝撃

ディープラーニングは、2012年に「ILSVRC (lmageNet large Scale Visual Recognition Challenge 」という画像認識のコンペティションで大躍進し第3次AIブームが加速します。

トロント大学のジェフリー・ヒントンらのチームがディープラーニングの技術を使った「スーパービジョン」が、他のチームがエラー率26%あたりで争っている中、16%という驚異的なエラー率を達成して圧倒的な勝利を収めました。

それまでは世界中の研究者が争っても、1年で1%しか改善しない領域であるにもかかわらず10%の記録を更新し、周囲は驚きました。しかも、人間が特徴抽出したのではなく、機械が自動で特徴を学習することを実現し、研究者はこぞってディープラーニングに注目するようになります。

2012年の「ILSVRC」にて、深い構造を持つニューラルネットワークが、従来手法の分類性能を大幅に上回って以来、ディープラーニングが画像認識に盛んに利用されるようになりました。
画像に関してですが、CNNという技術により画像認識のはかなり精度が出ています。ディープラーニングもともと相性が良いのもこの画像認識の分野といえます。CNNが使われる大きな理由の1つが人間の画像処理のプロセスを模倣していると言われのと、もう1つの理由は、画像の実験の結果を容易に確認しやすいという点です。どういう時に間違えたか、どういう時に会っていたかと言うことが、目で見て確認がしやすいので、これも発展に大きく影響を与えました。

もし今後、ディープラーニングを実際にご自身で実装初めて勉強してみたいという場合は、おそらくこの画像認識から取り組むことになると思います。画像認識においてはデータ、サンプルデータが充実していまして、例えばMNIST(手書き数字のデータ)CIFAR-10(一般物体認識用)ですとか、この辺を用いて勉強を始めることになると思います。

CNNは、「畳み込み層」と「プーリング層」という2種類の層を交互に繰り返して構成されます。非線形な要素を入れるため、畳み込みその後に活性化関数が挿入されますが、CNNの精度向上に寄与したは、ReLU(Rectified Linear Unit)と呼ばれる活性化関数の導入が大きいです。深層学習では層を深く重ねることがことが特徴ですが、従来のシグモイド関数のような活性化関数では、層が深くなるにつれ勾配が小さくなっていくのでうまく学習できない勾配消失問題をReLUは解決しました。


画像認識も細かくはいろいろなタスクがあり、クラス分類、物体検出、物体セグメンテーション、画像キャプション生成などがあります。さらに応用に近いものとして、顔認識、行動認識、人間のポーズ同定などがあります。いずれのタスクにおいても、CNNは中心的に用いられます。
このようにCNNは現在人工知能の画像認識技術の中心的な存在ですが、そのCNNは実は日本人の福島邦彦氏によるネオコグ二トロンを起源としています。


CNN:画像を認識するネットワーク


CNNでは、入力に近い側から順に簡単な特徴量が学習され、それが組み合わせてより複雑な特徴量が学習されます。あらかじめlmageNetで訓練されたAlexNet VGG-16、VGG-19、Inception、ResNet等はよく使われるモデルです。


lmageNet(画像認識用のデータセット)
・1400万枚を超える画像
・画像に写っている物体名(クラス名)を付与
・物体名(クラス名)は2万種類以上

データは公開されているので登録すればダウンロード可能。


他にも画像認識用データセットしとして
MNIST-手書き文字認識用
・(0-9)の画像を7万枚収録

CIFAR-10
・飛行機、鳥など10クラスの字を数万枚収録


ディープラーニングを用いた画像認識のモデル
ALEXNET   2012年  8層
VGG16、19   2014年 16層、19層
Inception(GoogleNet) 2015年  22層
Resnet 2015年  152層
Densnet 2017年

それ以前
LeNet (ルカン) 1998
ネオコグニトロン(福島) 1980

※G検定ではディープラーニングを用いた画像認識のモデルがよく出題されますのでよく覚えておいて下さい。


2012年のILSVRCで圧勝したヒントン教授のチームの「スーパービジョンは」同チームのアレックス・クリジェフスキーが考案した「AlexNet 」のモデルを用いています。

2015年に登場したResNetは人間の画像認識精度と言われる5%のエラー率を超えたといわれています。


時系列データ処理への展開(RNN)

音声データやテキストデータのような「時系列のデータ」に関しては、時間的な隣接性を利用できます。つまり、時系列データにおいて、ある時間的近接した要素同士は影響与える可能性が高いですが、時間的に遠く離れた要素が影響与えることはあまりありません。この性質を使えば、パラメーターの数を減らすことができます。これがRNN(リカレントニューラルネットワーク)。RNNは時系列名として自然言語処理への応用、翻訳への予約画像認識と組み合わせることにより、言語の意味の理解に近づく可能性があります。


RNN/LSTMを用いた自然言語処理


RNNの中身を分析すると、文がどのくらい長いかを学習しているユニットや、文の種類(例、疑問文か、回答文かなど)、そして話題展開の階層の深さなどを学習しているユニットなど、文章の「特徴」に対応するユニットが確認できます。
こういった「特徴」を、人間がわざわざ設定しなくても、自動的に学習することができるのはRNNの大きな強みです。
しかし、RNNには影響が長期に及ぶときと、と短期にしか呼ばないときを区別できないという課題があります。LSTM(Long Shot Term Memory)は時間的に長期の依存関係をモデル化しようとしたニューラルネットワークです。隠れ層のユニットに変えて、自分自身の状態を保存する(メモリセル)を導入します。不必要になったときに困るので、「忘却ゲート」を導入しています。忘却ゲートがオンになると、状態を引き継がなくなる。そうでないときは、状態を引き継ぎます。これによって長期の依存関係もうまく学習でき、また、話題が変わったときには、すぐに前の状態を忘れられるようになりました。


AIの進歩の要因


・コンピューターの計算能力の向上(ムーアの法則、GPU)
・ビックデータ(データ爆発)
・アルゴリズムの改善(誤差逆伝播法、CNN、LSTM)
・基盤の整備(Linux、TCP/IP、AWS、Tensorflow)
・エコシステム 情報共有(arXiv、Github)

主に上記に挙げたような要因で人工知能(ディープラーニング)が急激に進歩しています。
1つ目はコンピューターの計算能力の向上です。 ディープラーニングの研究は、ずいぶん昔からされていましたが、コンピューターの計算パワーが足りないため 実用化には至りませんでした。それが近年、GPUなどにより追いついてきたため可能になってきました。

2つ目はビッグデータを集められるようになったことです。ビッグデータにより膨大なデータの中から分析が可能になり精度が向上しました。
 ビッグデータとは普段私たちが使用しているスマートフォンの生み出すデータ(写真 、SNS、 位置情報、生体データ)他にも、ウェアラブル端末、監視カメラのデータがそうです。さらに今後は、 IoT によるセンサーからのデータも増えてくるためそのデータ量は今後ますます増えていきます。

3つ目は AI のアルゴリズムの改善・進化です。次々と新しい AI のアルゴリズムが登場し状況を一変させています。たとえば、ディープラーニングの代表的なアルゴリズムである CNN (畳み込みニューラルネットワーク)は画像認識の分野で利用されています。
また。、RNN(再帰型ニューラルネットワーク)は時系列を扱える(メモリーも記憶できる )ため、自然言語処理処理(Google翻訳など)に利用をされています。生成モデルである「GAN」(レンブラント風の絵画を生成したり、現実には存在しない人の顔を生成したりできる)最新ではGQN(二次元画像から3次元画像を生成する新技術)も登場しています。

4つ目はエコシステムの情報共有です。 エコシステムとは自分達一企業だけでデータを抱えこむのではなく、データをオープンにしてそれを世界中の誰でも開発できるようにしたシステムです。 例えば Github、arXiv 、kaggleなどがそれにあたります。これらにより研究が加速しています。


人工知能研究の3偉人にチューリング賞


2019年3月、人工知能研究者3人にコンピュータ界のノーベル賞といわれるチューリング賞の受賞が決まりました。その3人とは、

ジェフリー・ヒントン(トロント大学、google)
ヤン・ルカン (ニューヨーク大学、Facebook)
ヨシュア・ベンジオ(モントリオール大学)

の3人です。この3人は人工知能の分野で極めて重要な人物です。



トロント大学の名誉教授でもあるジェフリー・ヒントン氏は、ニューラルネットワークの世界的な権威として知られています。ケンブリッジ大学の学生だった1960年代後半からニューラルネットワークの研究を続けており、人工知能(AI)の「冬の時代」を2度も経験しながらも、その火を絶やさぬよう研究を続けてきた人物です。

2012年にILSVRCでディープラーニングを用いた「スーパービジョン」の開発を主導したのはヒントン氏です。ヒントン氏が中心になって開発した新しい機械学習、ディープラーニングは世界に衝撃を与え、AI研究に新たなブレイクスルーをもたらしました。通称通称「ディープラーニングの父」。

ヒントン氏は2013年、Googleに引き抜かれるかたちで、同社の人工知能研究プロジェクトである「Google Brain」に加わりました。Google検索やGoogleアシスタントの音声認識など、いまや世界最先端ともいえるグーグルのAI技術は、まさにヒントン氏がいてこそと言っても過言ではありません。そして彼の研究は、現在のAIやニューラルネットワークの隆盛につながっています。

2006年頃にヒントン氏らのグループは「深層信念ネットワーク」や「制限ボルツマンマシン」を多数積み重ねたオートエンコーダなどの手法によって様々な種類データに対して深い階層を持つ有効な特徴表現が得られることを示しました。これがディープラーニング始まりです。

カナダは人工知能の研究が進んでいる国です。
ヒントン氏の教え子らはAI研究者としてニューラルネットワークの研究開発を牽引しています。なかでもヤン・ルカンはヒントンの教え子で、のちにヨシュア・ベンジオと出会ってAI研究を加速させました。彼ら3人は「カナディアン・マフィア」と呼ばれたこともあります。


このような優秀な人材が集まるカナダにGoogleは目を付け研究者の囲い込みをしました。
トロント大学のヒントン氏はgoogle Brainを率いることに(その前はスタンフォード大学のアンドリュー・エン氏が率いていた )同トロント大学のアレックス・クリジェフスキー(AlexNetを考案)も引き抜きました。
カナダでAI研究者の争奪戦が激化し、Googleはヒントンら優秀なAI研究者を囲い込むために、トロントに2つ目の研究施設まで開設しています。

ヒントン氏はさらに2017年にはCNNの構造的欠陥を指摘し、CNNより特徴を本質的にとらえるアルゴリズムを考案しました。それをカプセルネットワークとして公表してCNNに変わるアルゴリズムとして注目されています。


ヤン・ルカン
Facebookの人工知能研究所、ニューヨーク大学
博士時代はヒントン氏の研究室に所属していた。
MNIST、光学文字認識(OCR)を考案したことでも知られている。


ヨシュア・ベンジオ
マギル大学でコンピューターサイエンスの革新をした後、MITとAT&Tペルー研究所で研究者としてキャリアを積みます。このAT&Tペルー研究所でヤン・ルカンと出会います。ヒントン氏はGoogle、ルカン氏はFacebookと企業に属していますが、ベンジオ氏は企業の誘いを断り続け、モントリオール大学をメインに活動しています。2016年にはカナダのElement AIを立ち上げました。ベンジオ氏はルカン氏と共にヒントン氏の理論を継承・発展させさせることになります。

ヒントン、ルカン、ベンジオの3氏は、厳しい冬の時代も黙々と AI研究を続け、 AI研究の火を絶やさぬよう守り続けてきました。そして後にディープラーニングの理論を築き上げることになります。


この記事が気に入ったらサポートをしてみませんか?