見出し画像

二項分布からはじめる超幾何分布解説


はじめに


まず前提として
「二項分布と超幾何分布はほぼ同じ」

これを理解することが大事なのだが、
ほんまかと思う人はこれを見てほしい

二項分布:

$$
\begin{aligned}
&  E[X] = np \\
&  V[X]= np(1-p)\\
\end{aligned}
$$

超幾何分布:

$$
\begin{aligned}
  E[X] & = n × \frac{M}{N} \\
& =np \\{}\\
 V[X] & = n × \frac{M(N - M)}{N^2} × \frac{N - n}{N - 1} \\
& = np(1-p) × \frac{N - n}{N - 1}\\
\end{aligned}
$$

分散だけ$${\frac{N - n}{N - 1}}$$の比率だけ違うだけで
平均も分散もほぼ同じ形をしている!!

なので今回は
二項分布と超幾何分布
の違いに着目しながら超幾何分布を紹介していく


二項分布と超幾何分布の違い


二項分布と超幾何分布の違いはたったこれだけ

二項分布 -> すべての試行の確率は同じ
超幾何分布 -> 試行ごとに次の試行の確率が変化

二項分布と超幾何分布の違いを同じ例で考えたらわかりやすい

例えば
赤玉4個白玉6個の合計10個あって
合計4個取り出して赤玉3個取り出したいとする

二項分布のときは
1回玉を取り出したら戻す、それを4回

超幾何分布のときは
1回玉を取り出したら戻さない、それを4回

ちなみにこれらの確率分布は
赤玉の取り出す数を確率変数$${X}$$とすると

二項分布 :

$$
\begin{aligned}
& P(X = 3) = {}_{10} C_{3}  (\frac{4}{10})^3  (\frac{6}{10})^7 
\end{aligned}
$$

超幾何分布 :

$$
\begin{aligned}
& P(X = 3) = \frac{{}_{4} C_{3} ×{}_{6} C_{1}}{{}_{10} C_{4}}
\end{aligned}
$$

ちなみに、なぜ確率分布が違うのかというと

二項分布の時は
1回玉を取り出したら戻すので
常に赤玉の確率が$${\frac{4}{10}}$$で変わらない

超幾何分布の時は
1回玉を取り出したら確率が変わるので
最初に赤玉を取り出す確率は$${\frac{4}{10}}$$だが
次回の赤玉の確率が$${\frac{3}{9}}$$か$${\frac{4}{9}}$$に変化する

また
取り出す or 取り出さないを一般化すると
元々の全部の玉(母集団が)変化する or しない

になるのでここで
教科書で出てくる下記の文言も理解できるだろう

玉などを取り出して戻さない(非復元抽出) -> 超幾何分布 
玉などを取り出して戻す(復元抽出)-> 二項分布 

となる


ほんまに超幾何分布の極限は二項分布なのか


さて二つの分布の違いを紹介したのだが
実は母集団を無限に増やしたら

玉(母集団)が無限個のとき、超幾何分布 -> 二項分布 に収束

してほぼ同じになる!!

超幾何分布の平均と分散は

$$
\begin{aligned}
  E[X] & = n × \frac{M}{N} \\
& =np \\{}\\
 V[X] & = n × \frac{M(N - M)}{N^2} × \frac{N - n}{N - 1} \\
& = np(1-p) × \frac{N - n}{N - 1}\\
\end{aligned}
$$

だったがこれを$${ N \rightarrow \infty}$$にすると
$${ \frac{N - n}{N - 1} \rightarrow 1}$$なので

$$
\begin{aligned}
  E[X] & = n × \frac{M}{N} \\
& =np \\{}\\
 V[X] & = n × \frac{M(N - M)}{N^2} × \frac{N - n}{N - 1} \\
& = np(1-p) × \frac{N - n}{N - 1} 
\\ & \rightarrow np(1-p)
\end{aligned}
$$

になるので
二項分布の平均と分散に収束することがわかる

これは
$${ N \rightarrow \infty}$$によって
超幾何分布の有限母集団が無限母集団になったので
二項分布に収束したと解釈すると簡単だ


この記事が気に入ったらサポートをしてみませんか?