Freedmanで統計学を学びましょう Ch.8 相関

Freedman Statistics 4th Editionを読んでいくノートです。

今日から第3部「相関と回帰」に入ります。第8章は相関がテーマです。2つのデータのあいだにどのような関係性があるのか、みていきましょう

まとめ

(Andy Field "Discovering Statistics using R" Chapter 4より引用)

1. Scatter Diagram(散布図)は、2変数の関係を視覚的に表現する。散布図上の各点が直線上に集まっているとき、強いLinear association(直線関係)があるという。
2. 散布図は以下の5つの指標で要約できる。
- x値の平均と標準偏差(SD)
- y値の平均と標準偏差(SD)
- Correlation Coefficient(相関係数) r
3. rが取り得る値は、-1から1までであり、rが正ならば、Positive association(正の関係)がある。rが負ならば、Negative association(負の関係)がある。
4. SD Lineとは、xとyの平均を示す点を通り、傾きが、

yのSD / xのSD (rが正のとき)
- yのSD / xのSD (rが負のとき)

である直線のことである。
5. 相関係数rは、

[xのStandard Units (標準スコア) x yのStandard Units (標準スコア)]の平均

で求められる。

議論

身長と体重にはなにか関係があるでしょうか。年収の高い女性の結婚相手の年収はやはり高いでしょうか。夫婦の年齢の間に関係はあるでしょうか。

こうした質問に答えるために、この章から二次元のデータを取り扱います。二次元であるとは、一人の学生について身長と体重、一組の夫婦の妻の年齢と夫の年齢といったように、同一の対象について二つの属性のペアになっているということです。このペアの値同士を分析し、その間にある関係性を見出すというのが、この第3部「相関と回帰」の大きなテーマとなります。

上記の散布図は、試験を受ける前の不安度と試験の結果をプロットした図になります。

この章のゴールは、この散布図を正しく読み取れるようになることです。

前章までで学習した平均、SD以外に、散布図から読み取れる新しい要素、それがCorrelation Coefficient(相関係数) rです。Freedmanによると、一般にrと呼ばれるものの、さしたる理由はないそうです。あえていうなら、Correlationにrが二回登場するくらい。

(図は、https://statsmethods.wordpress.com/2013/05/10/pearson-correlation-coefficient-r/ より)

rの値が1に近いほど、正の関係(xが大きくなればyが大きくなる)になり、-1に近いほど、負の関係(xが大きくなればyがちいさくなる)を示します。0に近づくと、両者の間に強い関係性が見当たらなくなります。

つまり、相関係数rを調べることが、「身長と体重にはなにか関係があるでしょうか」といった冒頭の問いに対する答えになるわけです。

このrを計算するには以下のステップを踏みます。

1. 観測値をStandard Units(標準スコア)に変換する。(やり方をおぼえていますか?第5章で登場しました)
2. 各観測値ごとに標準スコアの積を求める。
3. 2の平均を取ったものがrである

あるいは、Covariance(共分散)という概念を以下のように定義して、

covariance(x, y) = 積xyの平均 - xの平均・yの平均
相関係数 r = covariance(x, y)  / (xのSD・yのSD)

と計算することができます。

Freedman統計学では、共分散の意味についてはこの章では全く説明されず、単にこういう計算方法もあるよ、という仕方でしか導入されていません。本文中でも演習でも、相関係数は、「観測値をStandard Units(標準スコア)に変換する→各観測値ごとに標準スコアの積を求める→平均を取る」というステップで手で求めるという練習を繰り返しさせられます。このあたり、理論を先行させるよりも、実践を通して、身体で覚えるという考え方がくっきり見えてきますね。

他の教科書やネットでの情報をみても、すっきりとした定義はありますが、その定義を見れば「あぁ、なるほど」とわかるものでもありません。Freedmanのテキストブックに掲載されている演習は全部手で解いて、相関係数rの求め方に身体で慣れていきましょう。

ちなみに、この記事の冒頭にあげた散布図は、試験を受ける前の不安の度合いと試験の結果の関係についてプロットしたものです。このデータの相関係数はどれくらいだと思いますか?受験前の心理状態と試験結果に関係はあると思いますか?このデータの相関係数rは、-0.44となりました。それほど強くないとは言え、負の関係がみられますね。不安が強いと試験の結果が悪くなる傾向にあるということで、示唆的なデータだと思います。図をみたときのみなさんの直観とマッチしているでしょうか。

Rによる散布図のプロットと相関係数の計算

# データは
# https://studysites.uk.sagepub.com/dsur/study/DSUR%20Data%20Files/Chapter%204/Exam%20Anxiety.dat
# から取得可能
examData <- read.delim("Exam Anxiety.dat",  header = TRUE) 
summary(examData)
scatter + geom_point() + labs(x = "Exam Anxiety", y = "Exam Performance %") + geom_vline(xintercept=74.344, linetype="dashed", color="black") + geom_hline(yintercept=56.57, linetype="dashed")
cor(examData$Anxiety, examData$Exam)

この記事が気に入ったらサポートをしてみませんか?