見出し画像

母平均の差の検定の自由度について

Introduction

母分散が同じとは限らない2つの母集団について、その母平均の差の検定をするとき、検定統計量と帰無分布を

として検定する方式は「母平均の差の検定」として、よく知られています。ところで、この帰無分布の自由度の式は一体どこから来たのでしょうか。

実は正規母集団を想定しても、検定統計量Tが従う分布は正確にはt-分布ではないことが知られており、加えてこの分布の正確な記述は簡単ではないことが知られています。代わりにt-分布で近似した結果現れた自由度dfがこの

という式なわけです。この式はWelch-Satterthwaiteの公式と呼ばれています。今回は、この式が導出される上で最も本質的な部分を問題形式で紹介するのが目的です。

事前に準備しておいた方が良い知識
・期待値と分散の性質
・カイ2乗分布の期待値・分散の公式
・標準正規分布とカイ2乗分布によるt-分布の定義

問題

解答

残る議論

あとは標本平均の差Dが従う分布を考えれば、(例えば母分散が未知の母平均の検定と同じようにして)冒頭の検定統計量を適切に式変形することで、先ほどの問題で求めた値を自由度に持つt-分布に近似的に従うことを示すことができます。具体的には以下の通りです。

ただし、ここに現れるX, Yの母分散は未知であるので、これらを不偏分散でplug-inした値が実際には用いられています。これがWelch-Satterthwaiteの公式の正体です。

おわりに

Welch-Satterthwaiteの公式は等分散でない2群の母集団の母平均の検定についてその検定方式をいかに決めれば良いかというBehrens-Fisher問題への回答の一案に過ぎないという点を注意します。その他の議論としては、例えばChapman, Prokof'yev and Shishkin, Dudewicz and Ahmedなどが有名ですが、今回は時間の都合上で割愛させてください。

Acknowledgement

この記事は、@hanaori(web engineer at Piece of Cake inc.)の質問に対する回答として執筆されたものです。また幾つかの議論へ時間を割いてくれた彼女の善意に感謝します。

References

[1] B. L. Welch, The Significance of the Difference between Two Means when the Variances are Unequal, Biometrika 29 pp.350-362 (1938)
[2] B. L. Welch, The Generalization of `Student's` Problem when Several Different Population Variance are Involved,  Biometrika 34 pp.28–35 (1947)

サポートをいただいた場合、新たに記事を書く際に勉強する書籍や筆記用具などを買うお金に使おうと思いますm(_ _)m