Freedmanで統計学を学びましょう Ch.9 相関(続)

Freedman Statistics 4th Editionを読んでいくノートです。

今週は、第9章More about Correlation、相関についての続きを学んでいきましょう。

まとめ

1. 相関係数は、単位を持たないただの数値であり、xとyを入れ替えたり、変数のすべての値に同じ数を足したり掛けたりしても、影響を受けない
2. Outliers(外れ値)が存在したり、線形ではない相関を示す場合、相関係数はあてにならなくなる。なるべく散布図を確認して、データの分布の具合を視覚的に確認しよう。
3. 割合や平均から算出されたEcological Correlations(生態学的相関)は、個々のデータの相関よりも関連が強調されやすい。
4. 相関は、関係性を数値化しているが、ここでいう関係性は、必ずしも因果関係を意味しない。x,yという変数に相関がある場合、zという第3の変数が両者に同時に影響を与えている可能性もある。

議論

本章では、第8章Correlation(相関)で、導入された相関係数について、さらに説明を加えられています。

まずは相関係数rの性質について。rは、観測値のStandard Units(標準スコア)に変換したものから計算されます。Standard Unitsに変換された時点で、元のデータが持っていた単位の情報は失われ、絶対値に関係なく、どれほど平均から離れているかだけを表すようになります。このため、rもまた単位を持たず、同じ観測データは、その単位系によらず、同じ相関係数rを持っています。本書では、New YorkとBostonの気温の相関について、摂氏データと華氏データで説明されています。どちらの単位系をつかっても、もちろん相関係数は同じです。また、例外的なケースとして、外れ値がある場合や、非線形の相関を示す場合があることに触れられています。非線形の相関がある場合には、そもそもこの相関係数rではただしくそのパターンを補足できないので適用するべきではありません。Freedmanは、散布図を確認することで、これらの例外的なケースを発見できると書いています。

ところで、一見すると当たり前のようですが、単位系を変えると同じデータでもずいぶん印象が異なること、かつ正の相関とは傾き1の直線に近似するだろうという思い込みを利用して、本来の相関係数を隠す操作をすることも可能です。

上の図は気象庁が公開している過去の気象データから取り出した、2017年の東京と釧路の月間最低気温です。Excelで簡単に計算したところ、相関係数は0.9574ととても強い正の相関を示しており、実際に散布図でも見て取れます。しかし、意図的にこの正の相関を隠すように、単位系をケルビン(絶対温度)に変えてかつ、不誠実な拡大をしてみましょう。

(強い正の相関があることを意図的に隠そうとする例)

こうしたねじ曲げられた図を目にしたとき、軸の取り方が不自然であることはすぐにわかりますが、相関までは一見しただけでは正しく読み取れません。単位系が摂氏のままであれば、このような不誠実な拡大がなされていても、ただしく相関を読み取れるかもしれませんが、このように単位系まで変えられると、「東京の気温が上下しても、釧路の気温はさほど変化がない」と誤解してしまいがちです。単位系を変えても相関係数は変わらないことを思い出して、ときには図にまどわされずに相関係数rを導くことも重要です。

Ecological Correlation(生態学的相関)について

1955年、Sir Richard Rollが11カ国の喫煙率と肺がんによる死亡率の調査を元に、喫煙と肺がんには関連があるという研究を発表しました。こちらも一見するとおかしな点はないように思いますが、実はこの時用いられた散布図は、国ごとの喫煙率と死亡率をプロットしたものだったのです。肺がんで死亡するのも煙草を吸うのも個人なのに、単位が国であるというところが、おかしなところですね。国ごとに平均値を割り出し、そのあと散布図に展開して、相関を見つけ出すことを、Freedmanは、Ecological Correlation(生態学的相関)とよんでいます。そして、Ecological Correlationは関連を誇張しがちであると警告しています。この点について、数学的な証明がないので、いまのところ鵜呑みにするしかないのは残念ですが、少し調べてみると、こういったタイプの誤謬は、Ecological Fallacy (生態学的誤謬)として、主に医療統計の分野では広く知られていることのようです。

この個人の特徴・傾向について、国ごとに比較するというのは非常によく見られる手法で、平均寿命と食べものの関係、年収と教育の関係など、あらゆる論文で見受けられます。こういった論文で散布図が登場したときに、そのドットが国ごとの平均を示している場合には、気をつけて、眉につばをつけて読んでください。過剰に相関が強く出てしまっている可能性があります。

因果関係について

最後に、相関は因果関係を必ずしも意味しないという点についてもたっぷりと議論が展開されています。全国の小学生について、靴のサイズと語彙数の関係を調べてみたら、靴のサイズが大きいほど豊富な語彙を持っていることがわかった。からといって、足の大きな子が国語力が高いことを意味するわけではない、という話です。

その他にも、本章では、「脂肪分摂取量と乳がん死亡率の関係」「インフレと失業率」「夫と妻の教育レベルの関係」など、社会派らしいトピックが演習問題や議論に次々とあげられて、学生たちに、正しく相関を読み取る練習を繰り返させています。安易な結論に飛びつかないよう、穏健な視点でデータに接する態度を身につけることが求められています。

人間は納得したい生き物であり、因果関係がその納得を与えてくれる以上、相関を因果関係に読み間違えるのは、自分たちの耐えがたい欲望のように思われます。そして、それは学問の世界であっても変わりはありません。Freedman統計学は、数学としての統計学としては物足りない点や冗長な点が見受けられるかもしれませんが、統計を利用して学問をするすべての人が身につけておくべき教養がつまっているのだと、本章を読んで感じています。

この記事が気に入ったらサポートをしてみませんか?