AIと反差別──ARICによる「Twitter社の健全化指標測定への提案」(2018月4月)

梁英聖

2019年11月27日 01:05

東大大澤昇平氏の差別が大問題となっている。

この連載では大澤氏の差別や、東大の責任について検証してきたが、じつはまだ触れていないテーマがある。

AIと差別だ。これはとても重要なテーマだ。

以前批判した通り大澤氏はAIを使って差別やヒトラー思想さえ正当化するツイートを公開している。

上の記事は、人種差別撤廃条約というモノサシをつかって、いかに氏のツイートが差別煽動効果をもっているかに焦点を当てて批判した。

だが本当はAIが差別を正当化することについて、どんな対策が必要なのかという大問題を考える必要がある。これは人類が直面している最先端の差別問題でもあるからだ。

この大テーマにとりくむ手始めとして、今回の記事はARICがAIの差別にどんな提案をしているか、ツイッターに送ったAIの活用法を紹介したい。

結論から言おう。

AIが行う差別に対しては、法律でいくら差別禁止法をつくっても、それだけでは歯が立たない。AIを管理する権限を人々がとりもどし、アルゴリズムそのものの中に差別を防止する仕組みを導入しなければならない。これについては以前紹介したキャシー・オニールさんのこの記事に加え、最年少でドイッチャー賞を受賞した斎藤耕平氏が編集した注目の新書『未来への大分岐』（マイケルハート、マルクスガブリエル、ポールメイソンの共著、集英社）が大いに参考になる。

またAIを活用して反差別を行うことも大いに活用すべきである。

ARICの提案は、この両方に関わるものだ。

以下、2018年4月にツイッター社が募集していた「健全化指標」案に、私が考えたAIを活用した差別防止対策のプレスリリースを公表する。

簡単にいえばその内容は、ARICが人種差別撤廃条約に違反する（疑い含む）6000件を超える政治家（公人）のヘイトスピーチ事例のデータベースを活用しAIに学習させ、ツイッターで差別・ヘイトスピーチを自動で発見しリスト化するプログラムを開発する、という提案である

残念ながら関心をもつメディアが居なかったが、いまでも十分現実的だと考えている。

大澤昇平氏の差別で、AIと差別という一大テーマが議論されざるを得なくなってきた。しかし本当はAIを使っていかに差別をなくせるかということもポジティブに考えるべきなのだ。（ARICはこのようなポジティブなAIの反差別への活用に関心のあるIT技術者・専門家を求めている。関心がある方はぜひご連絡いただきたい。）

（以下、プレスリリース。PDFファイルはこちらで公開）

Twitter空間におけるヘイトスピーチに関して、Twitter社の募集する健全化指標測定への提案書に応募しました！

2018年4月13日
報道関係者様各位
反レイシズム情報センター（ARIC）
代表梁英聖

拝啓　
　時下ますますご清栄のこととお喜び申し上げます。平素はなにかとご厚情にあずかり誠にありがとうございます。
　さて、このたび反レイシズム情報センターでは、Twitter社が募集する　健全化指標測定への提案書に応募いたしました。
昨今Twitter空間におけるヘイトスピーチが問題となっています。世界的にはTwitterやFacebookなどのSNSにおいて差別による攻撃的な投稿や、それを繰り返すアカウントの凍結など規制が強化されています。
　しかし、日本においてはそのような対策は進まず、深刻なヘイトスピーチが放置されていることが度々問題となってきました。そこで、反レイシズム情報センターでは、この度Twitter社が公募する健全を測定する方法に応募いたしました。これはインターネット上の差別的投稿を効果的に規制する際の一つの方法を提案しています。
反レイシズム情報センターでは人種差別撤廃条約に違反する、公人の差別発言を記録した「政治家レイシズムデータベース」を作成しています。これらのアーカイブを無償提供し、当団体と他の国際人権法やマイノリティ問題の専門家、そしてIT専門家が協同して差別的投稿を検索するプログラムを開発することにより、Twitter社の定めるルールに違反する投稿を自動的にリストアップすることが可能になります。本案が日本におけるインターネット空間のヘイトスピーチ規制の議論の一助となることを期待しております。
つきましては、本提案についてなにとぞ貴媒体でも取り上げていただきたく、ここにご案内する次第です。概要は下記の通りです。

Twitter社の健全化指標測定への提案（※ツイッター社の応募フォームに沿ったものとなっています）

■Propose and define a health metric that Twitter could use to measure itself. *（ツイッター自身を測定するのに使える健全性指標を定義・提案してください）

【健全性指標１】ルールに反する差別の撤廃度：やむなく発生する差別・差別煽動のうち、ルールに違反するものを、ツイッター社がどれぐらい削除・アカウント凍結できているどうか。
　※差別撤廃は世界人権宣言や人種差別撤廃条約・女子差別撤廃条約など各種国際人権条約が義務付けているものである。

■How would Twitter capture, measure & evaluate this health metric? *（どのようにツイッター社はその健全性指標を取得し、測定し、発展させることができますか？）

【指標の取得法】
○現状
現状ではツイッターにはごく形式的な差別禁止ルールはあるものの、悪質な差別ツイートとそれを繰り返すアカウントが大量に放置されている。しかも差別禁止ルールに基づいてどのように差別か否かを判断しているか、またツイートを削除しているかが非公開であるため、ルールに違反する差別の撤廃度はまったく測れない。

○指標の導入
ルールに違反する差別の撤廃度を健全性指標としてツイッターが取得するには、
A）実際に放置されている大量の差別を確実に撤廃すること、
B）その差別撤廃の方法と結果についてできるかぎり公開すること、
の2つが必要となる。
以下、その具体的方法を提案する。
１．過去のヘイトスピーチを大量に集めたアーカイブから、ルール違反のツイートを検索することを可能にする重要データを検出し、それを元に自動的にルール違反ツイートが疑われるツイートを検索するシステムを開発する。その実施主体としてARICだけでなく、他のITや情報科学の専門家・研究者、そして他の国際人権法・多文化主義・マイノリティ問題に詳しい専門家・NGO・研究者と協同するプロジェクトチームをつくる。具体的には、
１）私たち反レイシズム情報センター（ARIC）が運営する政治家レイシズムデータベース（https://antiracism-info.com/database_home/　）には人種差別撤廃条約第1条でいう「人種差別」に反する公人（政治家を中心に）の差別言動が4358件（2018年4月7日現在）登録されている。ARICはこれらヘイトスピーチのアーカイブを無償で提供する。
２）上記データをAIに読み込まるなど適切な方法により、ルールに違反すると強く疑われるツイートを自動的に検索するのに活用可能な次の3つの指標、①差別語・②複合検索すれば違反ツイートを検索可能な差別キーワード・③典型的差別パターンを検出する。
３）上記①②③を活用して自動的にルール違反が強く疑われるツイートを検索するプログラムを開発する。
※ARICだけでなく、他のITや情報科学の専門家・研究者、そして他の国際人権法・多文化主義・マイノリティ問題に詳しい専門家・NGO・研究者と協同するプロジェクトチームを発足させ実施主体とする。
２．上記プログラムを用いすべてのツイートから自動的に定時間ごとに（1時間毎が望ましい）ルール違反が強く疑われるツイートをリストアップする「イエローリスト」を作成する。
３．「イエローリスト」のうち、プロジェクトチーム内の国際人権法や差別問題の専門家・NGO（あるいはその研修を受けたスタッフ）が、ルール違反とは言えないものを除外し、残りのルール違反のツイートをリスアップした「レッドリスト」を作成する。
４．ツイッター社は「レッドリスト」を参考にしてルール違反のものを自社の基準で削除する。
【指標の測定法】
１．上記の方法じたいを公表することは、従来不透明であったツイッター社の差別撤廃に取り組む客観的な方法を可視化させツイッター社の差別撤廃への意思を公にするという意味で、差別の撤廃度という指標を測定する基本条件となるだろう。
２．差別の撤廃度という指標を量的に測定することは簡単ではないが、次のことが考えられる。
１）毎週（毎日あるいは毎月）ごとに「イエローリスト」「レッドリスト」そしてツイッター社が実際に削除・凍結したアカウント数の統計データを公表する。
２）「「レッドリスト」÷「イエローリスト」」あるいは「ツイッター社の削除数÷「レッドリスト」」などの数値も公表する。これは差別の撤廃度という指標を測る参考値になるだろう。
【指標の発展法】
１．「イエローリスト」「レッドリスト」「「レッドリスト」÷「イエローリスト」」「ツイッター社の削除数÷「レッドリスト」」の各数値はそれじたいの高低が直ちに差別の撤廃度を表すのではない。
２．しかし各データを短評する付加情報とともにそれらデータは差別の撤廃度の指標を測定する重要な根拠となるだろう。
３．各データの短評をたとえばARICや他の人権NGOや研究者に月報として公表するという案がありうる。
４．各データが公表されれば、ツイッター上やその他でそれらデータの意味・文脈についてツイッターの差別の撤廃度に関する議論が起こるだろう。その議論じたいが一つの差別の撤廃度を測る指標になるのではないか。

（以下、第二・第三・第四の指標の提案について同じ問い）
■Propose and define a health metric that Twitter could use to measure itself. (metric #2)

【健全性指標２】ルールに反する極右の差別煽動活動の撤廃度：やむなく入り込んでくる極右の差別煽動活動のうち、ルールに違反するものを、ツイッター社がどれぐらい削除・アカウント凍結できているどうか。

■How would Twitter capture, measure & evaluate this health metric? (metric #2)

　健全性指標１を導入することを前提としている。
そのうえでさらに、悪質な差別を繰り返すアカウント・極右グループの実態をよく知るNGOや専門家の意見を参考にして、極右アカウント・活動を撤廃する。これは前述プロジェクトチーム内の国際人権法・マイノリティ問題の専門家・研究者と協同で極右活動のヘイトウォッチhate watchチームを発足させ、そのチームが収集した極右活動のデータから、
１）社会的影響力のある極右アカウントをリストアップする「極右リスト」を作成し、
２）そのうちツイッターのルールに違反するツイートあるいは活動に利用しているアカウントを選び出した「NG極右リスト」を作成する。
３）「NG極右リスト」はツイッター社に提供され、ツイッター社がアカウント凍結を行う参考にする。
４）本指標の測定・公開は「極右リスト」「NG極右リスト」およびその中からツイッター社が凍結したアカウント数などを定期的に公表することで達せられるだろう。

■Propose and define a health metric that Twitter could use to measure itself. (metric #3)

【健全性指標３】。違反となる差別のガイドラインをNGOや専門家・研究者と協力して作成し、そのガイドラインに違反しているツイッターがどれぐらいあるかを公表する。

■How would Twitter capture, measure & evaluate this health metric? (metric #3)

FIFAがロシアワールドカップの差別監視プログラムで提携している国際NGOであるFAREは独自の差別ガイドラインを作成し公表している。そのガイドラインに反している差別が発見された場合、24時間以内にFIFAに通報し、FIFAが対処することになっている。
これにヒントを得て、違反となる差別のガイドラインをNGOや専門家・研究者と協力して作成し、そのガイドラインに違反しているツイッターがどれぐらいあるかを公表する。
指標１と２と組み合せて運用すればよい。

この記事が気に入ったらサポートをしてみませんか？