Freedmanで統計学を学びましょう Ch.5 正規分布と近似

Freedman Statistics 4th Editionを読んでいくノートです。

第5章は、Normal Distribution(正規分布)とNormal Approximation(正規近似)を勉強します。第4章で学んだ標準偏差(SD)を基本単位として、分布の様子を細かく調べていきます。

まとめ

1. Normal Curve(正規分布曲線)は左右対称で常に0より大きく、曲線の下の面積は合計すると100%になる。
2. Standard Units、またはStandard Scores(標準スコア), Z-scores(Zスコア), sigma-scores(シグマスコア)とは、観測値を平均からのプラスマイナスどちらにどれくらい離れているか、距離を標準偏差を単位として言い換えたものである。
3. 多くのヒストグラムは、大体正規分布曲線と似た形を取る。(第5部でもっとちゃんと触れる予定)
4. 観測データが正規分布に従うなら、任意の範囲に収まるデータの割合は、値をStandard Unitsに変換することで推定可能である。これをNormal Approximation(正規近似)という。
5. 正規分布に従うヒストグラムは、平均と標準偏差さえわかれば、書き直すことができる。つまり、平均と標準偏差は適切な要約であると言える。
6. 正規分布に従うかどうかにかかわらず、すべてのヒストグラムはパーセンタイル値を使って要約できる
7. すべての観測値に同じ値を加えても、SDは変化しない。すべての観測値に同じ正値を掛け合わせると、平均とSDもその定数を掛け合わせた値になる(負値の場合は、マイナス記号を除いたものになる)

議論

正規分布は1720年頃確率について調べていたde Moivre(ド・モアブル)によって発見され、その後1870年頃ケトレーが理想的なヒストグラムとして正規表現を用いるというアイデアを出したそうです。

この章では、SATという大学受験のための試験データや前章に登場したHANESの身長や体重のデータを用いて、正規近似の計算に慣れるための演習がたくさん出題されています。

正規分布曲線は数式でも表現できますが、煩雑な計算を避けるため、Zスコアから高さ・面積を引ける変換表を用いての手計算ですませることができるようになっています。

多くのヒストグラムにおいて、多少の誤差はあれど、

1) およそ68%の観測値は、-1SD〜+1SD以内に収まる。
2) およそ95%の観測値は、-2SD〜+2SD以内に収まる。

は重要な指摘です。もちろん正規分布に従わなければ、その誤差は大きくなり、有意義ではありません。誤差については、次章で扱われる予定です。

パーセンタイルという概念にもなれておきましょう。パーセンタイル値は、値であり、「とある大学志望者の数学のSATの点数の95%パーセンタイル値は、700点であった」という使い方をします。あるいは、「700点とっていれば、パーセンタイルランクは95%である」「700点は、95%パーセンタイルである」とも言います。

平均と標準偏差がわかれば、正規分布するデータのおよその分布の具合がわかるという議論も重要です。特に気をつけておきたいのが、「正規分布に従えば」という条件がついていることです。またしても、だましのテクニックとして使えそうなのが、正規分布に従わないデータなのにも関わらず、そこから平均と標準偏差を取り出して、正規分布しているかのように議論を進めることです。前章でも用いた年収の例はまさに正規分布に従わない例ですが、68%が±1SDになるようなSDを求めることは可能です。

前章で使った年収の表を再掲します。

個別データではなく階級別データなので正確さには欠けますが、100万円以上600万円以下の階級の合計人数が全体の72%になり、この集団が1SDに収まるとして、SD=200万円としましょう(この値自体がすでに多くの誤差を含む推定を元に算出されていることに注意してください)。

「平均は422万円、SDは200万円」という要約情報だけが伝わり、元のデータが正規分布に従わないという情報が欠落すると、ここから、おおよそ68%の人は、222万〜622万円であるというニセの推定が可能になってしまいます。頭にベルカーブを思い描いていると、年収222万に満たない人は、16%にすぎないだろうと考えてしまいがちですが、これは上記の年収テーブルから推測できる27%という数値を10%超もかけ離れています。

実際に、Freedman統計学にも、年収データを用いて、正規分布に従うか従わないかを推測させる問題が、Review Exerciseの中にも登場しています。正規分布はおおよその見当をつけるのに非常に便利で強力なツールですが、用法用量はきちんと守り、何でもかんでも釘だと思って叩いてしまわないように気をつけたいものです。

Rによる正規分布のプロット

mean <- 0
sd <- 1
x <- seq(-4,4,length=100)*sd + mean
hx <- dnorm(x, mean, sd)
plot(x, hx, type="n", xlab="Standard Units", ylab="Percent Per Standard Unit", main="Normal Distribution")
lines(x, hx)

lb <- -1
ub <- 1
i <- x >= lb & x <= ub
polygon(c(lb,x[i],ub), c(0,hx[i],0), col="red") 
text(0, 0.2, "68%")

lb2 <- -2
ub2 <- 2
j <- x >= lb2 & x <= ub2
polygon(c(lb2,x[j],ub2), c(0,hx[j],0), col="orange")
text(0, 0.2, "95%")




この記事が気に入ったらサポートをしてみませんか?