Freedmanで統計学を学びましょう Ch.10 回帰

Freedman Statistics 4th Editionを読んでいくノートです。今週は、第10章Regression、回帰について学びます。

まとめ

1. 変数xが1SD増加すると、変数yはおよそrSD分増加する。この平均による予測値をグラフ上にプロットしたものをRegression Line(回帰直線)という。
2. 変数xの値ごとにyの平均値をとりプロットしたものを、さらにスムーズにしたものが回帰直線だといえる。このとき平均値のプロットが非線形のかたちをしていれば、回帰直線はうまくフィットしない。
3. 回帰直線から未知の観測値を予測することができるようになる。ただし、同じ観測対象であれば、という条件つきである。集団の一部のデータから集団の全体を予測するようなことはできないので、要注意。
4. Regression Effect(回帰効果)、またはRegression to Mediocrity(平均への回帰): 二度試験を受けた場合、一度目に極端に成績がよかったものは二度目には下がる傾向にあり、極端に悪かったものはあがる傾向にある。散布図が回帰直線周辺をフットボール型に分布するデータの場合には必ず見られる現象。
5. Regression Fallacy(回帰の誤謬)とは、回帰効果を別の要因に誤って見立ててしまうこと。
6. 回帰直線は2種類ある。xからyを推定する回帰と、yからxを推定する回帰である

回帰という用語について

統計学におけるRegression(回帰)という用語は、ダーウィンの従兄でもあるフランシス・ゴールトン卿にその起源があると言われます。ゴールトンは遺伝に関心を持っており、さまざまな家族の身長体重を集めて、身長と遺伝の関係、すなわち親の身長からこの身長を推定できるかについて調べていました。高身長の父親を持つ息子たちの身長は父親より低くなり平均に近づくこと、同様に低身長の父親を持つ息子たちの身長もまた父親より伸びて平均に近づくことに気づきました。この現象をゴールトンは「平均への回帰」と呼んだのです。Regressionとは”以前の(通常は好ましくない)状態に戻る”の意なので、高身長の父親からさらに高身長の息子が産まれるという期待に反して、次世代は前世代より退行しているように思えたのです。

ここで期待という言葉を使っています。身長を伸ばすだけではなく、遺伝によって才能や性格を改良しようと期待を込めて創始された学問が優生学でした。そして、優生学は、まさにゴールトン自身によってはじめられたのです。統計学は優生学の副産物として生まれたといっても過言ではありません。

ゴールトンは、平均への退行現象そのものを「回帰」と呼んだのですが、時代が絶つにつれ、同じ手法を使い相関係数からデータにフィットする回帰直線を求めることそのものを「回帰」と呼ぶようになったのです。

議論

この章ではじめて、統計を予測に使うための手法が登場しました。それが、この回帰直線です。xからyへの回帰直線を用いることで、任意のxについてyの平均を求めることができます。この回帰直線は、xがSD大きくなると、yはrSDだけ大きくなるという特徴があります。

たとえば、大学の入学試験であるSATの点数が650であった学生の、大学初年度のGPA(評価平均点. 0.0~4.0まで)を予測するという問題があげられています。SATの平均が550, SDが80, GPAの平均が2.6でSDが0.6, 両者の相関係数が0.4であった場合、

このような単純な計算で、この学生の期待されるGPAが求められます。重要なのは、この回帰の対象となっている集団を拡大してはならないと言うことです。この例の場合、元データとなっているのは、当大学の入学試験を受けて、かつ、合格し入学し、かつ初年度の成績を得た集団です。ここから全米の大学生の傾向を推測するのは無茶がすぎますし、当大学を受験したけれど不合格だった学生たちの初年度GPAを推定するのもやはり無理があるでしょう。

さらに、Freedmanは「平均への回帰」「回帰の誤謬」について十分な段落をさいて解説しています。使用される例は、どちらも著名な、ゴールトンの「父と息子の身長データ」と、「試験を二度受けた場合の比較」です。なぜ「平均への回帰」という現象が起きるのか。Freedmanは、試験を二度受けた例を用いて、こう説明します。

試験の結果とは、本当の学力とは別に運にも左右されるものである。たとえば、平均点が70点でSDが10点である試験で、90点を取った学生たちを分析した場合、本当の学力は85点だが運良く+5になった生徒や、本来は95点の学力があるにもかかわらず運悪く-5になった生徒もいるだろう。しかし、正規分布しているため、+5や+10になった結果90点になった学生の数の方が多いのである。従って2回目の試験では、全体の平均値へと近づくことになる。

演習でも、似た例を手を変え品を変え繰り返し、わたしたちに考えさせる機会を与え続けています。

血圧を二度測ったら、一度目に異常に高い人たちは二度目には低くなる傾向がある。医者は二度目の測定時にはより落ち着いていたのだろうと結論した。この医者の判断は正しいだろうか。

もちろん「回帰の誤謬」で説明可能な現象ですね。

参考

- So Why Is It Called "Regression," Anyway?


この記事が気に入ったらサポートをしてみませんか?