データ分析読解をサポートしてくれるための質問リスト
いままで読んできたデータ分析関連の書籍の中で一番勉強になったのがこちらの本。「イッシューからはじめよ」は脳みそぱっぱらぱーの私には内容についていけなかったのが悔しかったが、この本読んでから「なるほど安宅さんが言いたかったイッシューとはこういうことか」と理解することができた。そんな補助線となってくれたのがこちらの本だった。
ざっくりまとめると、「新聞やSNSに出回っているデータって、本当に正しい?正しく分析できている?データドリブンが謳われている世の中で、正しくデータを読み解き、ウソか真かを見極めるには知識と考え方が必要だから、この本にある実際に出回ったことがある記事などをもとに練習問題を作ったから読者も読んでみよう」という趣旨の本だ。なのでTableau desktop certificationを取ったばっかで、統計学も勉強しはじめたばっかの私でも読めたし、粗方「データを読み解く」力も備わった気がする。
ということで、感想もかねて今後の私の備忘録用に、この本で学んだ「いかにデータを読み解くか」をリストにまとめてみた。
今後社内でデータを渡されたとき、記事でグラフが表示されているとき、ほかクリティカルな視点が抜けてると感じたとき、こちらのブログを参照し、また読者の視点や学んでいて足したくなることがあればこちらで更新していこうと思う。
【第1章 データ分析読解の基本、因果関係】
安易な思い付きで、因果関係を見出そうとしていないか。
事象の過程全体を俯瞰し、複数の現場、場面に分解して想像する。⇒事故にまつわるニュースが減っているのはなぜかという問いに対しては、①事故現場、②番組制作・編集、③お茶の間、視聴者、と分けて考えてみる。
登場人物を想起し、その立場になり代わる。
直接的な要因を考え、その裏にある要因を考える。
思い付いた要因から、更に連想を進める。
問題発生地点にいる人に直接聞いてみる。
【第2章 怪しさを感じ取る糸口、議論と数字のズレ】
分析者の主張と数字は一貫性があるか、ズレはないか
焦点となるデータを入手したら、(あくまでデータの傾向を手早く把握し批判的読解をするために)最大と最小付近の少数に絞って観察する。
数字の裏にある因果関係の構造を紐解く。
相関関係なのか、因果関係なのか。
【第3章 結果論は分析ではない】
別の結果に置き換えて要因を考える:要因が見つからないとき、近場の他のデータとの相関関係を見てみると、次の分析につながりやすい。⇒直接的な要因を見つけやすいから。
データの単位を細かくする。都道府県別⇒県内の市区町村別、職業別、年齢別など。
【第4章 データが歪めば結果も歪む】
データがどのように作られたのかを知り、その結果どのような性質のデータとなっているのかを考えること。
想定している分析対象と、実際に分析に用いられたデータとの間に差が生じているかどうか=歪みがないか考える。
【第5章 「分析したつもり」の落とし穴】
どうやって抽出しているか?
その抽出で、実態を表すことができているか?データに歪みはないか?
それか、いつも均一に歪んでいるか?
データを表す言葉は正しいか?誇張してないか?誤解を招いていないか?
急にデータの値が盛り上がっていないか?
平均への回帰?
定着できているか?
適切に評価できるか?評価するためにどうデータを持ってくるか?
【第6章 幻の因果関係を生み出す交絡因子】
それは因果関係か?相関関係か?
交絡因子があるのではないか?
交絡因子の見つけ方①: A→B と提示されていたら、AとBそれぞれを構成する要素、背景にある因果関係を書き出してみる。共通する要素があれば、それが交絡因子の可能性が高い。
②: 逆の因果関係を考える。A→Bではなく、B→Aで。
【第7章 散布図に潜む罠】
散布図のX軸、Y軸の要素は、それぞれ時間経過で変化する要素では?
地域データに関しては間違った相関関係が出現しやすいから注意する。
この記事が気に入ったらサポートをしてみませんか?