見出し画像

【統計学はこんな学問だ!!】区間推定編


はじめに:母平均を推定する区間推定とは


 区間推定というものをご存知でしょうか。すべてのデータを集めることが難しく、平均を算出することが不可能な場合がありますよね(日本人の平均身長など、日本人全員の身長を集めるのは不可能です)。その場合、「100人や1000人ほどのサンプルから取った平均を目安にする」と思います。区間推定では、サンプルの平均を使うと真の平均がどの程度にあるのか推定できます。

 区間推定で活躍するのが標本平均です。1回目に取ったサンプルの平均と2回目に取ったサンプル平均は異なりますよね。つまり、サンプルを取るたびに サンプル平均 が変わります。この発想が今回の大事な点です。ランダムな標本平均の平均を求めるという一瞬頭がこんがらがることをします。

 あくまで統計学とはどのような学問かを紹介したいので、表現があいまいになる個所もありますがご了承ください。前回に「正規分布より、平均±2つ分の標準偏差が95.4%のデータを含む」という話をしましたので、先にそちらを見ていただくことをおすすめします。


理由:標本平均の分布を考える


母集団、母平均・・・すべてのデータ、その平均 (例:日本人全員の身長、日本人平均身長)
標本、標本平均・・・母集団から一部を取り出したサンプルデータ、その平均 (例:ランダムに選んだ日本人1000人の身長、1000人の平均身長)

前回で詳しく説明しているので、ぜひ見てね!

 標本平均の分布を考えます。サンプルを何度も選ぶことを考えてください。1000人を何度も選ぶと、その1000人から集まる平均は何度も変わりますよね。つまり、標本平均はランダムなのです。これは正規分布に当てはまることが知られています。また、なんと標本平均の平均は母平均になることも知られています。

ちょっとだけ標本平均の分布に慣れましょう。たとえば母平均 5の母集団
 {1, 2, 3, 4, 5, 6, 7, 8, 9}
からランダムに3つ標本を選びます。そして、標本平均を出します。
{1, 2, 6}:標本平均 3   {3, 7, 5}:標本平均 5
{6, 3, 9}:標本平均 6   {4, 7, 1}:標本平均 4
{5, 9, 7}:標本平均 7   {8, 5, 2}:標本平均 5
試しに6回選びました。この標本平均:{ 3, 5, 6, 4, 7, 5} を考えていこうという話です。
 なので、{ 3, 5, 6, 4, 7, 5 } の平均は「標本平均の平均」と呼び、{ 3, 5, 6, 4, 7, 5 } の標準偏差を「標本平均の標準偏差」といいます。
 この場合、「標本平均の平均」は 5, 「標本平均の標準偏差」は約1.3となるので、標本平均:{ 3, 5, 6, 4, 7, 5 } の中で 68% (6つ中 4つ)は 5±1.3 ( 3.7~6.6 )の範囲にいることになります。たしかに当てはまりますね。
 ちなみに、母平均 5 と「標本平均の平均 」5 が一致しましたね。標本平均の平均が母平均になるという感覚を体感できると思います。(今回はそうなるように具体例を作った。)

イメージ図:①②を無限回繰り返すと、標本平均も無限に集まります。結果と書いてある表は標本平均が 4, 5, 6 などになった回数です、この無数にある標本平均は正規分布に当てはまります。

 正規分布より、平均±2つ分の標準偏差が95.4%のデータを含むのでした。これを標本平均の分布でも考えます。

「標本平均の平均±2つ分の標本平均の標準偏差」

の範囲内に全体の95.4%の標本平均が入っていることになります。

逆にどのランダムに選んだ標本平均を選んでも「±2つ分の標本平均の標準偏差」の範囲にはほとんど母平均が入っています。つまり

「ランダムに選んだ標本平均」±「2つ分の標本平均の標準偏差」
の中には母平均が高い確率で入っている

ことになります。これが信頼区間というものです。ランダムに選んだ標本のうち95.4%は信頼区間の中に母平均があり、残り4.6%は信頼区間が母平均に届かずということになります。

 この95.4%というのは信頼度と呼ばれ、100回中95回は信頼区間の中に母平均が含まれるという意味です。

赤矢印は標準偏差2つ分の幅を表す。
黄色に注目。黄の点からは標準偏差2つ分の範囲内に母平均が存在する。これを届く表現した。
緑に着目。緑の点からは標準偏差2つ分の範囲内に母平均は存在しない。これは届かない。
青い色の95.4%のエリアに黄色のような点が存在する。つまり、95.4%の標本平均は標準偏差2つ分の範囲内に母平均が存在することになる。

具体例:実際にどのように使われるか確認


 抽象的な話が続いたので具体例で確認します。「真の平均」を知りたい場合、例えば製品の平均寿命や平均身長などがあります。

 もちろん、すべての製品の寿命を測ればいいのですが、それでは売るための製品が用意できないですよね。製品の一部をサンプルとして寿命を測ってみます。平均身長も同様です。信頼度 95.4%で区間推定しましょう

 あるゲーム機の寿命を知りたい。25個をサンプルとして平均寿命を取ったところ、1510時間だった。標本平均の標準偏差は5時間と分かっている。(母分散は625)

信頼区間は 1510±2×5なので、1500~1520 となります。

 つまり、ゲーム機の寿命をすべて測った平均寿命は1500~1520時間と推測されます

 今回のサンプル平均が1510時間でしたが、標本平均が1490時間や1520時間の場合もあります。すると、信頼区間もその都度変わりますが(1480~1500, 1510~1530になることもある)、求めた区間の95.4%は真の寿命(母平均)が含まれている区間があるという意味になります。

 日本人の平均身長を知りたい。100人をサンプルとして平均寿命を取ったところ、165cmだった。標本平均の標準偏差は0.4cmと分かっている。(母分散は16) 

 信頼区間は 165±2×0.4なので、164.2~165.8 となります。

 サンプルに選んだ100人が高身長ぞろいだとしましょう。推定した区間(164.2~165.8)がちょっと高めに出たということです。
 神様が日本人全員の身長を測ってもらったら、真の平均身長160cmになりました。この場合は推定区間164.2~165.8cmは推定失敗です。運悪く選んだサンプルが5%の高身長に偏った標本平均を引いてしまいました。母平均に標準偏差2つ以上離れてしまったということです。

 信頼区間の意味と区間推定のやり方は何となく理解していただけたと思います。


まとめ:区間推定とは


 ちなみに、区間推定では平均だけでなく比率なども推定できます。また、正規分布以外にも、$${\chi ^2}$$分布などで区間推定は行えます。

 信頼度 95.4%とキリの悪い数値で区間推定をしましたが、本当は標準偏差 1.96 だけ離した信頼区間 95% の区間推定がよく行われます。90% や 99%でも検定は行えます。

 平均と標準偏差でいろいろ推測できる統計学はすごいですよね。次回は統計的検定を紹介します。こちらからどうぞ!最後まで見ていただきありがとうございました。高評価、フォローお待ちしております。

この記事が気に入ったらサポートをしてみませんか?