見出し画像

データのばらつき

心理学で最も多用されるのは「平均値
でも,平均値だけでは分からないことがたくさんある。


【平均値】

例えば次の例ではどうだろうか?

画像1

ある研究者は、大学生の昨夜の睡眠時間を調べたら、AクラスもBクラスも睡眠時間の平均は6時間だった。

ここで「どっちのクラスも平均6時間で同じだ!」と一瞬思うかもしれないが、果たしてどうだろうか?

Aクラスは、みんな6時間くらいの睡眠で,Bクラスは朝まで遊んでいて全く寝ていない人と授業にも行かずに12時間寝た人が半々ずついるかもしれない。

この時に注目するのが「散布度」(variability)

【散布図】

散布度とは、観測値のばらつきの程度を示す指標の総称

レンジ(range, R/範囲、変域):最大の観測値と最小の観測値との隔たり
四分位偏差(quartile deviation, Q):中央値から全体の25%(1/4)の観測値を含む範囲
第1四分位数(Q1):観測値を小さい順で並べたときに、全体の1/4の度数にある値
第3四分位数(Q3):観測値を小さい順で並べたときに、全体の3/4の度数にある値
四分位範囲:Q3とQ1の差。つまり、中央値から全体の50%の観測値を含む範囲


【標準偏差と分散】

レンジや四分位偏差を算出すればOKともいかないのが現実。
なぜなら、レンジは個々の観測値の大きさを無視するし、外れ値やデータ数の影響を受けやすい。四分位偏差でも観測値全体がどのようにばらついているかは分からない。

そこで用いるのが「標準偏差」(Standard Distribution: SD)

標準偏差は、間隔尺度比率尺度のみに用いることができる。

なお、標準偏差を二乗した値を「分散」(variance)である。

この記事が気に入ったらサポートをしてみませんか?