見出し画像

統計学「データの視覚化」

この章では、分析と解釈を容易にするためにデータの視覚化をする方法に焦点を当てる。

データを視覚的に表現すること最初に模索したのは、スコットラインドの経済学者であるWilliam Playfair(1786)。
彼がグラフやチャートを発明に繋がるアイディアを創出した。PlayfairのCommercialand Political Atlasで、18世紀の英国と他の国との間の輸出入に関するデータを提示した。

視覚化の種類

・線グラフ
折れ線グラフは、連続した期間のデータを表すために使用される。
これは通常、時間の経過に伴うメジャー(または変数)の傾向を示すために使用される。データ値は、線で繋がれてプロットされる。
折れ線グラフを使用すると、時間の経過に伴う従属変数のパターンを確認できる。

・棒グラフ
主に比較に使われる。
さまざまな高さのバーを使用したデータのグラフィック表示されるグラフ。

・ヒストグラム
ヒストグラムは、一連の連続データの基礎となる度数分布(形状)を検出して表示できるプロット。これにより、基礎となる分布(正規分布など)、外れ値、歪度などについてデータを検査できる。

ヒストグラムや線グラフの場合には、「形状」を確認することができる。ヒストグラムまたは棒グラフの形状は、データの分布として説明されることがよくある。
全ての棒が同じ高さにある場合、それを「均一(uniform)」と呼ぶ。ピーク(山)が一つしかない場合、それをユニモーダル(unimodal)と呼ぶ。ピークが二つの場合、バイモーダル(bimodal)、複数のピークがある場合は、マルチモーダル(multimodal)という。中心に反射線がある場合、シンメトリック(symmetric)と呼ぶ。

バーの高さは、左端と右端に向かってどんどん小さくなる。これら小さくなっていく部分のことをテールと呼ぶ。

・円グラフ
円グラフは、各領域が合計に対してどのように分割されているかを示す。

グラフの選び方

使用するグラフの種類は、データの種類だけでなく、データをどのように処理するかによっても異なる。

時間の経過とともに、または異なるカテゴリ間で値を比較する場合は、通常、棒グラフ、ヒストグラム、および線グラフが役立つ。異なるカテゴリ間で比較する場合、棒グラフまたはヒストグラムで表示できる。時間の経過とともに値を比較する場合、折れ線グラフが最も便利。
多数の値を比較する必要があり、データセットが比較的小さい場合、テーブル形式で表示するのがおすすめ。

・棒グラフ
データが定性的、または連続的で離散的である場合。
・ヒストグラム
連続データの場合。
・折れ線グラフ
時間の経過に伴うデータの傾向を調べたい場合。
・円グラフ
データの一部が全体をどのように構成しているかに関心がある場合。

この記事が気に入ったらサポートをしてみませんか?