私の思う、データを見る・見せることの恐怖。そして付き合い方。

改めて、自戒も込めて。メディア・野良各所への少しの批判も込めて。

 私はTwitterアカウントにてデータ分析とその公開、議論を多分2015年あたりから行っておりますが、今でも思うのは「データを見せる」というのは「怖い」ということ。産みの苦しさとかそういうことではなく、自分の見せているものは間違っていないか、特に誤解を与えないか、という「恐怖」。
 特に私の大学院生としてのテーマである「可視化」というものは、学び、ツールを得れば得るほど恐ろしいもので、「わかりやすさ」というものは「伝達力」に繋がりますが、それは「詐欺力」でもあるわけです。直感的にわかりやすくすればするほど「考えない人」を勘違いさせることも容易にします。だから怖い。
 その為、何度も「意見・感想・批判をください」と言っています。私の分析を安易に信用するなということ。データというのは本来多様に見方のあるものですが、「自分の意見の説得力」を持たせようとすれば、ある一定の見え方に収束させることができるわけです。「相関が0.9超あります」「p値が0.05を下回っています」「AICが考えられるパターンの中で最も低いです」とか言ってしまえば、表面的にはそれが最もそれらしいものだと言えます。

 例えば、読者の皆さんはここまでの文章を507文字、しっかり読んでいただけたでしょうか。太文字の箇所の印象が強く、実は太文字ではない箇所に記述した反対する意見を見落としているということはないでしょうか。「可視化が勘違いさせることを容易にする」というのはそういうことです。

 また、分析者が「データの見方は多様にある」というのは上記の注意勧告の為に発信するのは良いのですが、それを自身の活動の柱としている場合は、無責任の極みであるとも思います。発信する以上は、その分析には自身の意見が乗っているはずです。

発信者「○○を見るためにこんな可視化しました」
閲覧者「○○の議論をするには、××は根拠に乏しくないですか?」
発信者「データの見方は多様にあります」

自ら意見を発信しているのに、他人の意見には耳を貸す気がない、ということですよね。本来、発信者が可視化の際に××を採用した理由があるはずで、それを説明すればよいだけの話。仰る通り「データの見方は多様にあります」ので、それが正しい・間違っているという議論ではないです。分析自体の質の向上や発信者・閲覧者の相互理解を深めるための議論です。その議論を拒否するということは「私の示したデータの見方を勘違いしているならば、そのまま勘違いしていなさい」ということと大差ないでしょう。自らが誤解を生み、そのままにしておくことを"悪し"としていないのと同義です。

 また、似たような自分を守る言葉として「データの正誤に対し責任を持たない」というのがありますね。これも使い方によっては大変無責任極まりないことで、「正誤に対し責任を持たない」から「転載・複製はやめてくれ/自己責任で行ってくれ」という意味ならばよいと思うのですが、「正誤に対し責任を持たない」金科玉条のように掲げ、自らの発言自体の責任まで放棄している事例も多々見受けられます。無責任極まりないです。

 昨今、データ分析の環境が一般的で容易なものになり、私も含め野良のアナリストが多く生まれておりますが、是非是非、「データの見方は多様にある」ことと「データの正誤に対し責任を持たない」という発言に対しては、それを発信者はどのような意味で扱っているのか、という点に注目し、自身の見るデータの質の向上、もっと言えばアナリストの取捨選択をしていただきたいな、と思います。
 感想・疑問をぶつけることで質の良いアナリストを育てると同時に、賢い閲覧者に育っていきましょう。お互いに。

有希っこ

15

有希っこ

Twitter:YUKI_tigers0626 阪神ファン。地元が北海道の為、日ハムも気になる。

#機械学習 #データサイエンティスト 記事まとめ

機械学習やデータサイエンティスト関連の記事を収集してまとめるマガジンです。
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。