見出し画像

【統計学はこんな学問だ!!】正規分布編


はじめに:正規分布を知ることで分かること


偏差値の仕組みを理解したことはあるでしょうか。50だと普通、60, 70 超えると天才 などといったイメージはあると思います。ですが、その 50, 60, 70 といった数値はどのような意味を持っているのか、なぜ天才と呼ばれるのかはご存じでしょうか。正規分布を通じて解説します。

 正規分布とは、データの分布を表すものです。どのデータもほとんど正規分布にあてはまるので、非常に便利です。また、標準偏差 1つの意味が重要になっていきます。

 「標準偏差」はそもそもデータの「ずれ」を表すことを前回紹介しました。


理由:標準偏差1つは68%


 まず用語をいくつか抑えましょう。

母集団・・・すべてのデータ 
(例:日本人全員の身長、すべてのiphone15の寿命)
標本・・・母集団から一部を取り出したサンプルデータ
(例:ランダムに選んだ日本人1000人の身長、ランダムに選んだ100個のiphone15の寿命)
母平均・・・母集団の平均
(我々の知りたい真の平均。例:日本人の平均身長、iphone15の平均寿命)
標本平均・・・標本の平均
(例:ランダムに選んだ日本人1000人の平均身長、ランダムに選んだ100個のiphone15の平均寿命)

 正規分布は母集団の分布を示します。平均値に向かって数が多くなっていき、平均値から離れていくと数が次第に少なくなるという、データは平均値に集まることを表現したものです。

ヒストグラムを想像すると、だいたい平均の近くにデータが集まることが分かると思います。正規分布でも同じようなことが起こります。

 母集団はなんでもいいです。たとえば、ある会社が製造するパンの重量、海に生息するイワシの体重、日本人の身長、iPhone15 のバッテリーの寿命などです。

 じつはこれら全部は正規分布というものに当てはめられます。つまり、パンの重量は多くのパンは平均重量に近く、イワシの多くは平均体重に近いイワシが多く、日本人の身長は・・・、iPhoneは・・・という話です。

 統計学では正規分布というものに沿う前提で話が進みます。必ずしも平均にデータがよるわけではありません。そういう点を考慮した$${t}$$分布とか$${\chi^2}$$分布とかもあります。ここでは扱いませんが、ぜひ勉強してみてください。

 正規分布では、中央に平均値があります。ここで、標準偏差がここですごい役割を持っています。

・青色は標準偏差1つ分のゾーン
・赤色は標準偏差2つ分のゾーン
・黄色は標準偏差3つ分のゾーン

・平均から標準偏差1つ分離れると 68.3%
・平均から標準偏差2つ分離れると 95.4%
・平均から標準偏差3つ分離れると 99.7%
が母集団のデータに含まれるという性質を持つ

 この性質がとにかく偉いです。すごいです。つまり、平均から標準偏差が1つ、2つの中にデータの約7割、9割が含まれるということが分かるのです。ちなみに、68.3 とか 95.4 という数字は昔の凄い数学者が発見したものなので気にしないでください。

 つまり、「平均値±標準偏差×〇」という範囲内にデータの含まれる割合を我々は計算できるのです。標準偏差1つ分だったら「普通ゾーン(68%)」、標準偏差2つ分より外側だったら「奇跡、稀ゾーン(95%)」にいるなどが分かるのです。これで、テストの点数で自分はどの層にいるのだろうとか、今月の売上はいつもよりもいいのか悪いのかなども、「普通ゾーン」「奇跡、稀ゾーン」だと判断できるのです。


具体例:偏差値の仕組みを知ろう


 具体例として、偏差値の仕組みを理解しましょう。まずデータの概要を理解するには平均と標準偏差の2つの指標が必要でした。偏差値での平均と標準偏差は以下のようになります。

偏差値の平均:50
偏差値の標準偏差:10

 模試の偏差値がちょうど 50 ならばそのテストはちょうど平均であったことが分かります。

 標準偏差が10なので、おおよその「ずれ」というものは 10 であり、50±10 の範囲内には受験者の 68%が含まれているということです。模試の偏差値が 55, 48, 52 などをとる人は 100 人中 68 人ということですね。

 逆に、50±10よりも外側の偏差値を取ったとしたら、それは割合が少ない層となります。「稀ゾーン」にいる訳です。偏差値 60 は全体の受験者のうち上位約16%の成績と判断されるので、天才と言われるのです。偏差値 70 は上位2.5%です。


まとめ:正規分布のここがすごい!


 たいていの集団は正規分布に従います。標準偏差 1つ分離れる場合の確率なども、正規分布を利用することで分かります。非常に便利かつ、応用が利くので知っておいて損ではないです。

 重要なことは、標準偏差 2つ分の範囲内は95.4%の割合を持つという性質です。逆に、標準偏差 2つ分の範囲外では4.6%しか起こりません。次回はこの性質を活かして、母平均の推定を行いたいと思います。最後まで見ていただきありがとうございました。高評価とフォローお待ちしております。



この記事が参加している募集

数学がすき

この記事が気に入ったらサポートをしてみませんか?