見出し画像

データ分析のコツ①

①分類(グルーピング)と割合
データリテラシーの初歩の初歩③で書いた時刻表を比較する例について、もう少し書いてみたいと思います。この例のように異なる集合を比較する際には同じくデータリテラシー②で書いた「割合」がすごく重要になります。

例えば、
・全体に対する各時間の電車の本数の割合
・全体に対する本数が最大・最小の時の本数の割合
・最大に対する他の時間帯の割合
などは、すぐに思いつく割合として挙げられるかと思います。

ですが、これらを計算して眺めていても、なかなかその意味(比較したときの違い)が浮かばないこともあります。そんなときの一つのコツとしては、自分で分類(グループ)を作って、その割合を求めるということです。
自分で分類する際には、自分が何を比較したいか、どういう視点で区別したいか、ということを明確にすることが大事です。そうすることによって、明確に自分が知りたいことを知るための分析ができるようになります。
分類の方法として、例えば、朝のピーク時間帯、昼の時間帯、夕方~夜のピーク時間帯、夜のピーク後などに分類できます。
以下は5時間ずつ、4つに分類してそれぞれの割合をグラフにしたものですが、1時間ごとの比較とは印象が違って、読み取れることも変わってくるのではないでしょうか。

上の4分類を見て、少し違和感を持った方はいますでしょうか。Aは元々どの時間帯も同じような本数だったので、ピークはない時刻表でしたが、Bではピークが朝と夜にあったにもかかわらず、上の分類ではそれがうまく表現されていません。元のデータを見ると、分類の仕方の影響でちょうどピーク時間帯が割れてしまっています。前の記事(データリテラシー③)で観察した以下の点が影響しています。

BとCでは夜のピーク時間帯が少しずれていて、Bの方では20時台が一番多く、Cでは18時台が一番多いことが分かります。

https://note.com/masa6206/n/n43030419ceb4

そこで、4時間ずつ5つに分類してそれぞれの割合をグラフにしてみました。
そうすると、Bの時刻表も夜のピークがきれいに出てきて、BとCの形はほとんど同じようになりました。

ここで大事なのは、BとCが最終的に同じ形になってよかったね、ということではなく、同じように朝と夜にピークがあったのに何が違うのか、なぜ違うのか、何が要因なのか、というような新たな仮説や気づきにつなげるために、自分なりの観点で分析することが重要だということです。

今回は個別のデータの見方という観点から、少し分析的な観点について紹介しました。今後はデータ分析についても、自分の経験を交えて少し考え方を共有していきたいと思います。


この記事が気に入ったらサポートをしてみませんか?