見出し画像

ヒューマンデータサイエンスの必要性

本文は筆者が2019年に英語で執筆したエッセイDeepLで機械翻訳し、加筆修正したものです。

機械はより賢くなっている。しかし、人間はどうすれば賢くなるのか?

この疑問が、私がデータサイエンティストを目指す一番のきっかけとなりました。パーソナルファイナンスから企業戦略まで、毎日が決断の連続です。しかし、私達は人生の中でどれだけの選択を合理的に行っているのでしょうか。過去の行動や結果から学んでいるのでしょうか?人類の集合的な意思決定は、その歴史の中でどのように改善されているのでしょうか?

この10年間で、機械はデータから学習することでより賢くなりました。しかし、すべてを委ねることができるほど、彼らは賢くありません。ロイターが少し前に報じたところによると、アマゾンが機械学習を使って求職者を評価するプロジェクトで、モデルが女性の求職者を自動的に格下げしていることが判明し、プロジェクトを停止したそうです。このような偏見の主な原因は、「アマゾンのコンピュータモデルが、10年間に提出された履歴書のパターンを観察することで、応募者を審査するように訓練されていたため。そのほとんどが男性からのもので、ハイテク業界における男性の優位性を反映している(*)」と述べています。

* 同英語版記事を訳したものです。なお、本記事英語版を筆者が執筆したのは2019年。

このニュースは、すべてのデータサイエンティストにとって教訓となるものでした。多くの人にとって、性別によって候補者の評価を下げることは、論理的には明らかに欠陥があります。しかし、過去の観測結果から勝ちパターンを抽出するという枠組みに頭が固まっていると、その問題を見落としてしまいがちです。アマゾンの事例は、機械学習モデルのハイパーパラメータを最適化して、検証データセットに対してさらに0.5%の精度を実現すれば、自分の仕事は完了したと考えるデータサイエンティストへの警告です。

現在の機械学習は、教師ありのシステムであれ、教師なしのシステムであれ、データに埋め込まれた過去のパターンからしか学習しません。一方、人間の知能は、過去から学習するだけでなく、未来が過去とどのように異なるかを知っていますし、そうでなければなりません。

革新的な組織のより賢い意思決定をデータサイエンスで支援する

これは弊社ANELENのミッション・ステートメントです。データサイエンティストの我々は、エビデンスに基づいた提案をトップに行うことが多いです。私たちは大量のデータを処理します。信号とノイズを見分けるための統計的知識を持っています。機械学習モデルを運用し、本番に展開できる。しかし、これらはデータサイエンスの使命を果たすために必要な条件ですが、不十分です。私たちの仕事には、サービスを提供している人々の気持ちを理解する力、エンパシーが必要です。彼らのコアバリューを理解する必要があります。また、ビジョンや目標を共有する必要があります。そうして初めて、私たちの分析やモデルが意味を持ち始めるのです。

人工知能のニュースは、毎日のように人々を驚かせています。人々は、認知的な作業において機械がますます人間に取って代わると考えるかもしれません。しかし私は、人間が何かを自動操縦できるようになるには程遠いと考えています。今日、深層学習が何をしているかを調べてみると、大半のアプリケーションは、画像の中の物体を認識するような低レベルの認知タスクか、「機械的な」意思決定プロセスを加速させるものです。機械的というのは、それらのタスクが、明示的なルールや認識されたパターンを持つ歴史的な例に基づいて非常によく確立されているからです。

一方、高度な認知タスクでは、多次元のデータを人間が「ファジー」に解釈することが求められることが多い。ファジーなのは、頭の中の効用関数の変数が、直接観察できないことが多いからでもある。例えば、企業ブランドに対する消費者のエンゲージメントを考えてみてください。お客様の心が企業ブランドにどれだけ深く関与しているかは、直接観察できません。もし、あなたの企業での責任が、お客様との「エンゲージメントを深める」ことだとしたら、そのような仮説的な構成要素をどのように測定するでしょうか?インスタグラムの投稿数で測れるのでしょうか?そうかもしれません。何を測定するにしても、観察可能な結果はエンゲージメントそのものではありません。それらは、エンゲージメントの深化の結果として想定される代理変数にすぎません。今日はその仮定が正しいかもしれませんが、明日には違う話になっているかもしれません。マシンは、目的関数とその変数をそのまま受け入れます。それらに疑問を持つことはありません。これは、人間の目で継続的にモデルを検証しないと、履歴書の分類がうまくいかない肝でもあります。

「誰も同じ川に二度入ることはできない」 - ヘラクレイトス

人間は、同じ川を2度踏むことはないと悟ることができます。繰り返されるパターンは、過去の正確な再現ではありません。歴史は繰り返しているように見えるかもしれませんが、すべての状況は現実には唯一のものです。私たちは、歴史的なパターンを覆す未来の要因とは何かに気づくことができます。確立された方法や意思決定システムを疑うことができます。人間は知性という素晴らしい才能を持っています。しかし、このような知性は、あらゆるレベルの日常生活において、それほど活用されていないように思われます。一方、情報化時代においては、最新の開発が光速でビジネスのボトムラインに影響を与えています。私たちの認知能力は、膨大なデータに紛れ込んだかつてない量のシグナルとノイズに圧倒されています。

今日、あらゆる意思決定機関が繁栄するためには、最先端のデータ処理ツールが人間の活動を支援する必要があります。よりスマートな意思決定をハイペースで行うためには、新しい学問が必要です。それはデータサイエンスと呼ばれるものです。この新しい学問は、統計学などの伝統的な学問に多くを負っていますが、コンピュータサイエンスとエンジニアリングの力を借りて大規模に運営されています。データサイエンスは、機械学習によって私たちの意思決定能力を向上させますが、仮説を立て、データを収集し、バイアスを評価するという科学的な厳密さは維持します。データサイエンスの実践者は、人間の価値観や倫理観に共感しなければなりません。また、人々の行動を効果的に促すメッセージを伝える技術を習得しています。

これがヒューマンデータサイエンスです。盲目的な機械学習の委任ではなく。これが、私がデータサイエンスの学び手であり続けたい理由です。
データサイエンティストはかつて、データのクレンジングや機械学習モデルのハイパーパラメータのチューニングに長い時間をかけていました。最近では、そうした作業を自動化するツールやプラットフォームが増えてきました。このような作業から解放されたら、データサイエンティストの役割は終わったのでしょうか?私に言わせれば、そうではありません。

機械はより賢くなっている。しかし、人間はどうすれば賢くなるのか?

という問いに答えようとしているのです。

この記事が気に入ったらサポートをしてみませんか?