見出し画像

分散の定義を見直してみよう

abstract 分散を直感的に説明するとき、確率変数が取りうる値の「散らばり具合」ということがあります。このnoteではこの標語に関連して、よく知られた定義とは異なる分散の定式化を紹介します。


1 Introduction

分散(variance)という用語は、1918年にR. A. Fisherが論文[F]で導入したのが初出だといわれています。確率変数 $${X}$$ の分散 $${\mathbb{V}[X]}$$ は、次のように定義されることが一般です。

$$
\begin{align*}
\mathbb{V}[X] &:= \mathbb{E}\left[(X-\mathbb{E}[X])^2\right]
\end{align*}
$$

言葉で説明するなら、分散とは確率変数 $${X}$$ の実現値が期待値 $${\mathbb{E}[X]}$$ の値から平均的にはどれくらい離れ得るかを数値で表したものです。

ところで、分散を一般の方向けに説明する時には、より砕けた表現として「散らばり具合」と言ってしまうことも多いのではないでしょうか。しかし、散らばり具合を表現するだけなら、期待値からの値の離れ具合を物差しとして使う必然性はないように見えます。そこでこのnoteでは、この散らばり具合という解釈をより直接的に数式に落とし込むことで、分散に別の方法で定義を与えられないかという疑問を考えます。

2 「散らばり具合」を直接的に定式化する

まずは具体的に考えてみましょう。noteでもらえるスキの数がまちまちかを知りたいとき、2つのnoteをランダムに選んでスキの数を比較してみるのは手軽で有効な方法のように見えます。これを数式で定式化すると以下のようになります。

確率変数 $${X, X'}$$ が独立に同じ確率分布(独立同分布、i.i.d.)に従うとしたとき、二変数の値の差 $${X-X'}$$ が大きくなりやすいほど、確率変数 $${X}$$ の値は散らばりやすいと考えることができるだろう。

「散らばり具合」の定式化

そこで、以下のような量を確率変数の値の「散らばり具合」を測る指標として導入できないでしょうか。

$$
\begin{align*}
\mathbb{E}[(X-X')^2]
\end{align*}
$$

実は、この値は第1節で掲げた分散 $${\mathbb{V}[X]}$$ そのものであることがわかります。つまり分散は期待値を基準に離れ具合を測らなくても「散らばり具合」として定義できるのです。

定理 $${\mathbb{V}[X]=\displaystyle\frac{1}{2}\mathbb{E}[(X-X')^2]}$$

第3節では、この定理を期待値の性質を用いて証明します。

Remark $${X'}$$ のことを $${X}$$ のindependent copyといいます。independent copyはROC曲線のAUCなどを例に、統計学の様々な場面で用いられます。初見の方はぜひ慣れておくと、良いことがあると思います。

3 証明

第2節で掲げた定理 $${\mathbb{V}[X]=\displaystyle\frac{1}{2}\mathbb{E}[(X-X')^2]}$$ を証明しておきましょう。証明には独立な二変数 $${X, X'}$$ の間に成り立つ期待値の性質

$$
\begin{align*}
\mathbb{E}[XX'] &= \mathbb{E}[X]\mathbb{E}[X']
\end{align*}
$$

を用います。

$$
\begin{align*}
\mathbb{E}[(X-X')^2] &= \mathbb{E}[X^2-2XX'+X'^2]\\
&= \mathbb{E}[X^2]-2\mathbb{E}[XX'] + \mathbb{E}[X'^2]\\
&= \mathbb{E}[X^2]-2\mathbb{E}[X]\mathbb{E}[X'] + \mathbb{E}[X'^2]\\
\end{align*}
$$

あとは $${X,X'}$$ が同じ分布に従っていることから $${\mathbb{E}[X]=\mathbb{E}[X']}$$ が成り立っていること、分散の公式 $${\mathbb{V}[X]=\mathbb{E}[X^2]-\mathbb{E}[X]^2}$$ に注意すれば

$$
\begin{align*}
\mathbb{E}[(X-X')^2] 
&= \mathbb{E}[X^2]-2\mathbb{E}[X]\mathbb{E}[X'] + \mathbb{E}[X'^2]\\
&= \mathbb{E}[X^2]-2\mathbb{E}[X]\mathbb{E}[X] + \mathbb{E}[X^2]\\
&= 2\left(\mathbb{E}[X^2]-\mathbb{E}[X]^2\right)\\
&= 2\mathbb{V}[X]
\end{align*}
$$

が得られ、定理が正しいことが確認できます。

Acknowledgement

日頃からサポートしていただいている方々、株式会社すうがくぶんかの皆さんに感謝申し上げます。

References

[F] Fisher, Ronald A. "XV.—The correlation between relatives on the supposition of Mendelian inheritance." Earth and Environmental Science Transactions of the Royal Society of Edinburgh 52.2 (1919): 399-433.

サポートをいただいた場合、新たに記事を書く際に勉強する書籍や筆記用具などを買うお金に使おうと思いますm(_ _)m