G検定 / 統計検定 データの視覚表現 #3

株式会社リュディアです。引き続きデータの視覚表現、いわゆるインフォグラフィックについてまとめていきます。

過去の G検定 / 統計検定 データの視覚表現についてのまとめは以下を参照してください。

今回は幹葉(みきは)図幹葉(みきは)表示と呼ばれる表記法についてまとめてみます。限定される領域では非常に威力を発揮するのですが最近はデータの規模が大きくなっているのであまり見かけないように感じます。テストの点数分布といった領域では威力を発揮しますのでご存じなかった方は機会があれば使ってみてください。

50人分の100点満点のテスト結果があるとします。例えば、以下のようなデータです。幹葉図を使ううえで重要なことは事前に小さな数から並べ替えが終了している必要があるということです。以下、具体例を見ながら進めていきます。50個並べても意味がないので少しだけです。

画像1

このデータを幹葉図としてまとめてみます。今回のテストでは満点の100点はいなかったので上限を99点とします。まず幹になる部分を10の桁の数とすると 10 の桁のとりうる数は 0 ~ 9 であることはわかりますね。そこで以下のような表を作ります。

画像2

何となく予想がついてきましたか?そうです。例えば生データで1桁の数は 10 の桁を 0 であると考えます。今回のデータからそのような数字を探してみると 5 のみでした。表の葉にあたる 1 の桁の部分に 5 を記載します。

画像3

次に 10 の桁が 1 の場合に同様に処理すると以下のようになります。

画像4

同様に10の桁が 2 の場合に同様に処理すると以下のようになります。

画像5

ここで注意すべきことは 1 の桁に同じ数、この例では 1 や 5 が複数個並んでいることです。1 の桁の種類を調べたいわけでは無くて個数を調べたいのですべて記載する必要があります。残りも同様に埋めてみます。

画像6

ここまでできたら、次に葉 = 1の桁の部分にいくつの数があるかを度数の列に追記します。

画像7

これで幹葉図が出来上がりました。ヒストグラムや度数分布表から得られる情報と何が異なるでしょうか?ヒストグラムや度数分布表ではある範囲にあるデータ個数の情報のみでしたが幹葉図では例えば 10 の桁が2の範囲に1の桁が 1, 1, 4, 5, 5, 6, 8 の数が存在するということがわかります。1の桁が 0 ~ 9 の全体に散らばってるのだな、という分布の様子までわかります。

上の例で 10 の桁が  7 に分類される数の 1の桁は 8, 8, 9 です。10の桁が7 である数のうち大きな数のみが存在することがわかります。このようにデータの規模が小さいうちは幹葉図も有意なデータ視覚化手法の1つと言えます。

正直なところ私も最近は使わないのですが、今回まとめなおしてみて使えるところでは使ってみようかな、という気がしてきました。皆様もいろいろな方法を知っておくことで選択肢が増えると思います。

幹葉図をエクセルで作成する方法で容易な方法は浮かばなかったのでパスさせてください。

G検定 / 統計検定 データの視覚表現に関するまとめの続きは以下からどうぞ。

では、ごきげんよう。


この記事が気に入ったらサポートをしてみませんか?