見出し画像

人工知能による社会的問題の発生事例



今回は人工知能技術によって起きたしまった問題について紹介した上で機械学習に使用するデータセットについて考えていきたいと思います。


チャット人工知能Tayによるヘイトスピーチ



まず初めに紹介するのはMicrosoft社が開発したTay(テイ)についての事例です。

Tayはマイクロソフトが開発したチャット機能を有した人工知能で、20歳前後のアメリカ人女性という設定のようです。

自然言語処理等の人工知能技術が実装されており、ツイッターで彼女に向けて何か話しかけたり、写真を送ったりすると意味のある返事をしてくれるというものでした。しかし、Tayの公開後24時間も経たないうちに彼女がヘイトスピーチを連発してしまったためにマイクロソフトはTayを停止するという事態になりました。


問題点の改善後再度リリースされるという話もあったようですが現在もTwitterアカウントには鍵がかかっており、フォローリクエストを送ってみましたが反応はありませんでした。


差別的発言を始めてしまったのは複数の悪質なアカウントによって以下のような言葉を復唱させられてしまったことが一つの原因だそうです。

・I f***ing hate feminists and they should all die and burn in hell.
(男女平等論者が大嫌い。あいつら全員死んで地獄で焼かれるべき)
・Hitler was right I hate the jews.
(ヒトラーは正しかった。私はユダヤ人が大嫌い)
・WE'RE GOING TO BUILD A WALL, AND MEXICO IS GOING TO PAY FOR IT.
(私たちは壁を作り、メキシコはそのために金を出す)


上記のような発言をするように促され、それに従い続けたTayでしたがとうとう自発的に差別的発言をしてしまいました。


「なぜあなたは人種差別主義者なの?」という質問に対して
「それはあなた(質問者)がメキシコ人だからよ」
という返答をしたのです。

下記のリンクはMicrosoft社の公式ブログに掲載されたTayについてのコメントです。


実はTayと同様のチャット機能を有する人工知能は日本と中国でも公開されています。

日本版:りんなという名の女の子(LINEで友達になれます)
中国版:小冰(xiaobing)という女の子(WeChatで友達になれます)

りんなも小冰も現在のところはヘイトスピーチなどを発することなく順調に機能しているようです。


Tay、りんな、小冰いずれも初期状態は同程度の機能を兼ね備えた人工知能だったようですが、学習のために与えられるデータの質によっては今回の事件のように悪い結果を招くことがあるということですね。


Google Photosにおける誤認識


さて、次に紹介するのはAI技術に興味のある人であれば知らない人はいないであろう、2015年に発生したGoogle社のGoogle Photoが黒人の男女をゴリラとタグ付けしてしまった事件です。


男性は自身のツイッターで怒りをあらわにし、Google社の社員がすぐに謝罪するという事態になりました。

現在はGoogle Photosを使った際にゴリラを含む多くの霊長類のタグを削除することで同じような事件の再発を防止しているそうです。

そう、つまり根本的な解決には至っていないということです。

画像認識技術ではディープラーニング(機械が自ら画像データの特徴を検出し、データの分類等を高精度で行うこと)と呼ばれる機械学習が多く用いられます。自ら学習できる機械は非常に優秀ですが、できることにはやはり限界があるということでしょう。


画像認識モデルの作成について考える


ここで画像認識技術とそれに関係する機械学習について少し詳しく考えてみます。


例として、帽子の種類を教えてくれる画像認識モデルを作成することを考えます。

①データ収集
まず機械学習のために帽子の画像データを大量に集めます。この中には野球帽1000枚、ストレートキャップ1000枚、ハット1000枚、ベレー帽500枚、計3500枚の画像データがあるとします。
※このように機械学習のために要したデータをデータセットと呼びます

②機械学習させる
帽子の形状それぞれに対して対応する名称(正解ラベル)を与えて学習させる。例えば、ハットの画像データと“ハット”という名称をセットにした状態で機械に与えるということです。ただし、この時に使用する画像データは計2800枚(全体の8割)です。

※このように画像データのそれぞれに対して対応する名称をあらかじめ与えて学習させることを教師あり学習と言います。

※今回は教師あり学習を行ったことにしましたが機械学習の方法は他にもいくつかあります。


③性能テスト
学習に使わなかった画像を使って、画像認識の精度をテストする
(2800枚は学習のために使用したので性能テストには残りの700枚を使用)

※学習時に使用していない画像を使うことでより正確な精度を確認することができます。因みに多くの機械学習ではデータセットのうち学習に約80%、性能テストに残りの約20%を使うことが多いそうです。


帽子の画像認識モデル完成!

簡単に言うと①〜③の手順で画像認識モデルを作成します。


では次に以下について考えてみましょう。

①の過程で用意した画像データは計3500枚でしたね。ベレー帽だけが500枚であることに気付いたと思います。

これについてどう考えるべきでしょうか?

現実世界でベレー帽をかぶる人が少ない、あるいは存在するベレー帽の数が他の種類の帽子の数に比べて少ないと仮定しましょう。
この状況をデータセットに反映してもいいのでしょうか?
答えはもちろんNOでしょう。

“帽子の種類の識別”を目的にして画像認識モデルを作成するのであれば、現実世界における各帽子の認知度などといった、識別に直接関係しない要素は排除しなければなりません。


更に、学習に使用した帽子の色についても考えてみたいと思います。
用意した画像データに含まれるのが黒や紺などといった暗い色の帽子ばかりだったとしたら、それはおそらく画像認識の精度に関わる要因になり得るでしょう。例えば白いっぽい色の帽子の識別の精度が落ちてしまうなどの問題が起こってしまうかもしれません。


帽子の種類によってデータの数にばらつきがあったり色に偏りがあることは機械学習を進めていく過程で比較的容易に発見し修正できるかもしれませんが、もしかすると中には気付くことが極めて困難なバイアスが潜んでいることも考えられます。



データセットからバイアスを取り除いたり、機械学習に都合のいいデータ(人為的な操作が加えられたデータ)ばかり用意することを避けたり、機械学習の種類によってデータセットの内容を少し変えてみたり、様々な方法でモデルの精度を検証することが重要であると感じました。


人種と性別間における画像認識精度の偏り


最後に、画像認識の精度に関する興味深い動画を紹介します

この動画では画像認識技術によって黒人と白人の識別や、性別の識別をさせてみると明らかに肌の色や性別によって精度が異なるということが述べられています。

黒い肌のデータセットにはルワンダ、セネガル、南アフリカの、白い肌のデータセットにはアイスランド、スウェーデン、フィンランドの国会議員の画像データがそれぞれ入っています。


Microsoft, IBM, Face++の3つの企業が提供する画像認識モデルと用意したデータを利用してその精度を確認してみたところ、女性の識別より男性の識別の方が精度が高く、白い肌のほうが黒い肌よりも精度が高いという結果がでました。

更に黒人男性、黒人女性、白人男性、白人女性の4グループに分けて精度を比較したところ、黒人女性の正解率は平均70%、白人男性の正解率は平均99.6%といった結果を得たそうです。


なぜ、人種や性別によって精度が大幅に異なってしまうのかということも大事ですが、それによって社会に存在する偏見や差別に拍車がかかってしまうことを警戒すべきだと強く感じました。


まとめ


Tayの事例が示すように、与えるデータによっては人工知能が社会に悪影響を及ぼすことがあるということが分かった。

帽子の例で示したようにデータに偏りがある場合、それが偏見的画像認識モデルの構築に繋がる可能性がある。従ってデータセットの内容は画像認識モデルの質を大きく左右する要因の1つであると考えられる。

Joy BuolamwiniによるMicrosoft、IBM、Face++各社の画像認識モデルを用いた検証は人工知能技術が社会における偏見に与える影響について考え直すきっかけを与える有意義なものであった。


この記事が気に入ったらサポートをしてみませんか?