見出し画像

データを分析するときはまずココを見よう!

機械学習とか統計とかそういう手法はネットのあちこちにあるんですが、基本の基本であるデータを分析するときにどんな部分を見ればよいのか書かれた記事が見つからないので、いくつかの観点を紹介します。

このnoteを読んでほしい人

最近データ分析をする機会があるけどちゃんとしたデータ分析の教育を受けていない人を対象に書いています。
マーケティングやセールスなどビジネス職でもデータを分析して判断をする機会は増えていると思います。SQLでBigQueryやRedshiftからデータを集計するようなケースです。集計自体はSQLでやるとこまで出来るようになったけど

「なんか分析に手間取る」
「思っていたように集計できない」
「自分の分析に自信がない」...etc

という話をよく聞きます。そんな人に今回取り上げている観点を身につけてもらえればと思います。
前回記事「データ分析をするなら生データを見よう!」もあわせて読むと理解が深まるので是非読んでみてください!

なんでデータ分析するんだっけ?

データ分析に重要な観点を紹介する前に、そもそも私たちはなんでデータ分析するのか思い出してみましょう。

ステークホルダーを納得させるため?
資料の見栄えを良くするため?
データ分析が流行りだから?

いやいや、ちゃんと理由があったはずです。
私たちがデータを分析するのはデータから定量的(客観的)に仮説を検証し意思決定するためです。意思決定することが目的であり、データ分析は手段です。データ分析は手段ですから目的を達成することが大事です。
これを踏まえたうえで、データ分析をする上で重要な観点を紹介します。

データは想定どおり正しく取得されている?

取得してきたデータは何らかの理由で正しく取得できていないことがよくあります。まずは想定どおりのデータが取得できているのか確認しましょう。データを正しく取得していることは今後のすべての基礎となっています。データを誤って取得していると意思決定を間違ってしまうことは容易に想像できるでしょう。なのでデータがちゃんと取れているのか十分にチェックしていきます。必要ならばより詳しい人に相談するもの良いです。
正しく取得できない理由はたくさんあります。例えば、データ形式が間違っていたり、データに意図しない抜けがあったり、そもそもSQLが間違っていたり…本当に思いもよらない理由でデータが取れていないことがあります(自分でもよくやる😇)。
データが正しく取得できていることを確認する簡単な方法は集計結果が想定していた形かどうか見ることです。グラフなどで可視化すると良いですね。グラフを見たときに思っていた形や分布になっているのか見ます。思っていたよりも値が小さかったり、極端な値になっていたり、ボリュームゾーンと想定した部分が小さかったり…そんなことがあったらデータの集計方法が間違っている可能性があります。
間違っていることに気がついたら、SQLを確認したり生データを見たりして確認します。SQLを確認するときはいくつかに分解してチェックすると捗りますよ。
集計したデータを元に意思決定を行うデータ分析ではデータが全ての礎となります。ここで間違いが無いようにぜひ確認してみましょう。

データにどんなバイアスがあるか把握してる?

集計されたデータがどんなバイアスの影響を受けているのか把握していることは正しく意思決定を行うために重要です。自分がしたい意思決定に重要そうな部分だけでも把握しておきましょう。
バイアスは日本語だと偏りと訳されます。データ分析の世界ではバイアスは非常に重要な観点であり難しい問題でもあります。ここを掘り下げるとかなり難しい話になってしまうので最低限気をつけるべきバイアスを紹介します。
最も気をつけるべきバイアスは偏った対象から得ていたり特別なイベントの影響を受けているケースです。
例えば、化粧品ブランドの印象についてインタビューをすることを考えてみましょう。通行人に質問してその結果を集計するという手法をとったとき、原宿と六本木で全然違う結果になりそうですが、これがバイアスです。年齢層や性別、収入などタイプが大きく人を対象にしているため結果が偏ってしまいます。しかしこれに気が付かなかったら間違った意思決定を生みます。また、インタビューをしているときにたまたまあるブランドがバズっていたらどうでしょう?これもまた偏った結果を生みそうですね。このように、対象の偏りやイベントの影響を受けたデータは歪んだ状態になっており、そういったことは非常によくあります。
季節性はないか?キャンペーンはないか?対象はどんな集団か?法規制は?などたくさんの要因があります。アンケートならその作りもバイアスを生みます。バイアスはたくさんの要因があります。専門家でも見逃すことがあるくらいです。バイアスに気がつくことがデータ分析のスキルと言っても過言ではないかもしれません。
眼の前にあるデータの集計期間や対象、経路からどんなバイアスが入っているのか検討してみましょう。そして意思決定をしたあとに違和感を感じたあらバイアスが無いか立ち戻ってみても良いでしょう。
バイアスを除外するには統計学の知識が必要になり難しいですが、バイアスがかかっていることを意識するだけでも誤った意思決定の確率を下げることができます。

本当にその意思決定はデータから言える?

集計したデータから本当にその意思決定をしてもよいですか?これはとてもむずかしい問題ですが、一旦立ち止まってこのことを考えてみましょう。
例えば、いくつかの地域の売上高を比べたときある地域の売上高が一番ならば売上高が高い地域だと判断したいですね。しかし、実は2番目の地域もほとんど変わらなかったらどうでしょう?実は前月は1番じゃなかったら?こんなときは「たまたまこのとき1番高い地域だった」とか「最も高い地域は複数ある」とか、そんな判断になると思います。
値を比べたときに、その値が意思決定をするのに十分に差があるかどうかは重要です。これは統計学では有意差と呼び検定という方法で評価します。可能であれば検定を行うほうがよいですが、そうでなくとも見た目で十分に違いがあるのか検討しましょう。比較すべきデータを比べたり時系列で見たりするのはとても有用です。このときは是非グラフにして見ましょう!
加えて、バイアスをちゃんと考慮できているのか検討しましょう。バイアスに対する補正は妥当なのか?そしてそれは見る人みんなに共有されているか?ということを確認しましょう。バイアスに気が付かずにデータを真に受けると間違った意思決定をしてしまいます。
データから意思決定をした場合は意思決定の妥当性を考慮すべきです。そのために可視化し見比べましょう。意思決定を十分に保証できるくらい差があるのか、偶然そうなる可能性があるのか、バイアスは考慮できているのか、これらの観点を留意しておくことが重要です。

------------------------------------

今回はデータ分析の基本の基本ということでデータを分析するときにどんな部分を見ればよいのか重要な観点をいくつか紹介しました。
ここで紹介した観点以外にも見るべき点はたくさんあります。データ分析は正確性を求めると非常に奥深い世界です。特にバイアスや有意性の検証は統計学で長年議論されてきた(そして今も議論されている)課題であり一筋縄ではいきません。これについては今後まとめていきたいと思っていますが、興味ある方はぜひ医療統計について調べてみてください。人間の健康という複雑でクリティカルな課題のために培ってきた歴史が集約されています。
今回お話したような基本はなかなか紹介されないことが多いのですが、データを使った意思決定の効率と精度を高めることができる重要な目線です。
この記事がデータ分析をやり始めた人の役にたてば幸いです。

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

役にたったらシェアしていただけると嬉しいです
86
某Fintech企業の人工知能の中の人。 データ分析・機械学習・データサイエンス・金融工学…etc Twitterのフォローもどうぞ!
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。