分散の劣加法性
abstract 独立な確率変数の線形和には分散の加法性が知られています。では、線形和から一般の関数にした場合はどうでしょうか。このnoteではその問いに対する一つの回答として知られる分散の劣加法性(分散のテンソル化)を紹介します。
Remark 記事が長い関係で目次が折りたたまれています。目次全体を確認したい方は「すべて表示」をクリックしてください。
1 Introduction
独立な確率変数の列 $${X_1,\cdots,X_n}$$ を用いて統計量 $${Y=f(X_1,\cdots,X_n)}$$ を定義します。今回は統計量 $${Y}$$ の分散 $${\mathbb{V}[Y]}$$ を上から評価する問題を考えます。標本平均 $${Y=\bar{X}}$$ のように関数が一次式
$$
\begin{align*}
f(x_1,\cdots,x_n) &= \sum_{i=1}^{n}w_ix_i
\end{align*}
$$
の場合、分散には加法性という性質が成り立っていました。
$$
\begin{align*}
\mathbb{V}[Y] &= \sum_{i=1}^{n}w_i^2\mathbb{V}[X_i]
\end{align*}
$$
それでは、この性質を一般の関数の形 $${f(x_1,\cdots,x_n)}$$ に拡張したらどうなるでしょうか。このnoteでは、この疑問に対する一つの回答として知られる分散の劣加法性(subadditivity)について解説します。
Remark 分散の劣加法性にはEfron-Steinの不等式の証明やentropyのテンソル化への拡張など、興味深い応用が様々知られています。これらの話題については、また別のnoteで解説します。■
2 座標方向の期待値と分散
2.1 定義
分散の劣加法性を説明するために必要な座標方向の期待値と分散という概念を導入します。確率変数の列 $${X_1,\cdots,X_n}$$ によって定義される統計量
$$
\begin{align*}
Y&=f(X_1,\cdots,X_n)
\end{align*}
$$
を考えます。このとき、
$$
\begin{align*}
\mathbb{E}_{i}[Y] &:= \mathbb{E}\left[Y\mid X_1,\cdots,X_{i-1},X_{i+1},\cdots,X_n\right]\\
\mathbb{V}_{i}[Y] &:= \mathbb{E}\left[(Y-\mathbb{E}_{i}[Y])^2\mid X_1,\cdots,X_{i-1},X_{i+1},\cdots,X_n\right]\\
\end{align*}
$$
を $${X_i}$$ 座標方向の期待値 / 分散($${X_i}$$-coordinatewise expectation / variance)といいます。特に確率変数列 $${X_1,\cdots,X_n}$$ が独立な場合には、$${X_i}$$ 以外の確率変数の値を固定したときの統計量の期待値と分散と説明することもできます。
$$
\begin{align*}
\mathbb{E}_{i}[Y] &:= \mathbb{E}\left[f(x_1,\cdots,x_{i-1},X_{i},x_{i+1},\cdots,x_{n})\right]\\
\mathbb{V}_{i}[Y] &:= \mathbb{V}\left[f(x_1,\cdots,x_{i-1},X_{i},x_{i+1},\cdots,x_{n})\right]
\end{align*}
$$
今後は確率変数列 $${X_1,\cdots,X_n}$$ が独立な場合を主に扱っていきます。
2.2 例題
概念に慣れるために以下のような例題を考えてみます。
この例題の場合、$${X_1}$$ 座標方向の期待値は、材料Bの配合量を一つの値に固定し、材料Aの配合量だけがランダムに決まる場合に硬度 $${Y}$$ が平均的に取りうる値のことです。$${X_1}$$ 座標方向の期待値は以下のように計算できます。
$$
\begin{align*}
\mathbb{E}_{1}[Y] &= \mathbb{E}[X_1X_2\mid X_2] \\
&= X_2\mathbb{E}[X_1\mid X_2]\\
&= X_2\mathbb{E}[X_1]\\
&= 0
\end{align*}
$$
従って材料Aだけをランダムに決めた場合、硬度 $${Y}$$ は $${0}$$ になることが期待されます。同様に $${X_1}$$ 座標方向の分散は、材料Bの配合量を一つの値に固定し、材料Aの配合量だけがランダムに決まる場合に硬度 $${Y}$$ の値が散らばる大きさのことです。以下のように計算できます。
$$
\begin{align*}
\mathbb{V}_1[Y] &= \mathbb{E}\left[(X_1X_2-0)^2\mid X_2\right]\\
&= X_2^2\mathbb{E}\left[X_1^2\mid X_2\right]\\
&= X_2^2\mathbb{E}\left[X_1^2\right]\\
&= X_2^2
\end{align*}
$$
特に $${\mathbb{E}[\mathbb{V}_1[Y]]=\mathbb{E}[X_2^2]=1}$$ は材料Aの配合量のみをランダムに決定した場合の硬度の平均的な分散と解釈できます。
2.3 座標方向の期待値が満たす冪等性と可換性
座標方向の期待値の計算に便利な性質として、冪等性と可換性を紹介します。
定理 以下のことが成り立ちます。
$${\mathbb{E}_i\mathbb{E}_i=\mathbb{E}_i}$$(冪等性)
確率変数列 $${X_1,\cdots,X_n}$$ が独立なとき$${\mathbb{E}_{i}\mathbb{E}_{j}=\mathbb{E}_{j}\mathbb{E}_{i}}$$が成立します。これを可換性といいます。
証明 1は期待値のタワー公式から従います。$${i=1}$$ の場合で示します。
$$
\begin{align*}
\mathbb{E}\left[\mathbb{E}[Y\mid X_2,\cdots,X_n]\mid X_2,\cdots,X_n\right] &= \mathbb{E}[Y\mid X_2,\cdots,X_n]
\end{align*}
$$
2を $${i=1, j=2}$$ の場合で示します。左辺と右辺はそれぞれ以下のように計算でき、等しくなります。
$$
\begin{align*}
\mathbb{E}_{1}\mathbb{E}_{2}[Y] &= \mathbb{E}\left[\mathbb{E}[Y\mid X_1,X_3\cdots,X_n]\mid X_2,\cdots,X_n\right]\\
&= \mathbb{E}\left[\mathbb{E}[Y\mid X_1,X_3\cdots,X_n]\mid X_3,\cdots,X_n\right]\\
&= \mathbb{E}\left[Y\mid X_3,\cdots,X_n\right]\\
\mathbb{E}_{2}\mathbb{E}_{1}[Y] &= \mathbb{E}\left[\mathbb{E}[Y\mid X_2,\cdots,X_n]\mid X_1,X_3,\cdots,X_n\right]\\
&= \mathbb{E}\left[\mathbb{E}[Y\mid X_2,\cdots,X_n]\mid X_3\cdots,X_n\right]\\
&= \mathbb{E}\left[Y\mid X_3,\cdots,X_n\right]\\
\end{align*}
$$
2行目は $${\mathbb{E}[Y\mid X_1,X_3\cdots,X_n]}$$ が $${X_1,X_3,\cdots,X_n}$$ で表されることから、これが $${X_{2}}$$ と独立になることから従います。5行目も同様です。■
2.4 条件付き期待値との関連
条件付き期待値と座標方向の期待値の関連性を紹介します。標語的には以下のようなものです。
雑に議論するなら、
$$
\begin{align*}
\mathbb{E}[Y\mid X_1 = x_1,\cdots,X_i=x_i] &= \mathbb{E}[f(x_1,\cdots,x_i,X_{i+1},\cdots,X_n)]\\
&= \mathbb{E}_n\cdots\mathbb{E}_{i+1}[Y]
\end{align*}
$$
という意味です。以下、厳密に証明を与えておきましょう。
定理 確率変数の列が独立なとき、座標方向の期待値には以下の性質が成り立ちます。
$$
\begin{align*}
\mathbb{E}[Y\mid X_1,\cdots,X_d] &= \mathbb{E}_n\cdots\mathbb{E}_{d+1}[Y]
\end{align*}
$$
特に $${\mathbb{E}[Y]=\mathbb{E}_{n}\cdots\mathbb{E}_1[Y]}$$ および $${\mathbb{E}[Y\mid X_1,\cdots,X_n]=Y}$$ が成り立ちます。
証明 右辺のうち $${\mathbb{E}_{d+2}\mathbb{E}_{d+1}[Y]}$$ を計算します。
$$
\begin{align*}
&\mathbb{E}_{d+2}\mathbb{E}_{d+1}[Y]\\
&= \mathbb{E}\left[\mathbb{E}[Y\mid X_1,\cdots,X_{d},X_{d+2},\cdots,X_n]\mid X_1,\cdots,X_{d+1},X_{d+3},\cdots,X_n\right]\\
&= \mathbb{E}\left[\mathbb{E}[Y\mid X_1,\cdots,X_{d},X_{d+2},\cdots,X_n]\mid X_1,\cdots,X_{d},X_{d+3},\cdots,X_n\right]\\
&= \mathbb{E}\left[Y\mid X_1,\cdots,X_{d},X_{d+3},\cdots,X_n\right]
\end{align*}
$$
3行目は $${\mathbb{E}[Y\mid X_1,\cdots,X_{d},X_{d+2},\cdots,X_n]}$$ が $${X_1,\cdots,X_{d},X_{d+2},\cdots,X_n}$$ で表されることから、これが $${X_{d+1}}$$ と独立になることから従います。4行目は期待値のタワー公式を用いています。このような計算を $${\mathbb{E}_{d+2}\mathbb{E}_{d+1}\mathbb{E}_{d}}$$, $${\mathbb{E}_{d+3}\mathbb{E}_{d+2}\mathbb{E}_{d+1}\mathbb{E}_{d}}$$, … と繰り返し行うことで、
$$
\begin{align*}
\mathbb{E}[Y\mid X_1,\cdots,X_d]&=\mathbb{E}_n\cdots\mathbb{E}_{d+1}[Y]
\end{align*}
$$
が従います。■
3 分散の劣加法性
3.1 主張
分散の劣加法性(subadditivity)またはテンソル化(tensorization)とは、独立な確率変数列によって定義される統計量の分散に対して成り立つ以下のような事実のことです。
定理 独立な確率変数列 $${X_1,\cdots,X_n}$$ によって定義される統計量 $${Y=f(X_1,\cdots,X_n)}$$ の分散 $${\mathbb{V}[Y]}$$ は、座標方向の分散の和の期待値で上から抑えることができます。数式で表すと以下の通りです。
$$
\begin{align*}
\mathbb{V}[Y] &\leq \mathbb{E}\left[\sum_{i=1}^{n}\mathbb{V}_{i}[Y]\right]
\end{align*}
$$
3.2節で確認するように、関数 $${f(x_1,\cdots,x_n)}$$ が一次式の場合には等号が成立し、これは分散の加法性そのものです。この不等式の証明は第5節に与えます。
3.2 等号成立条件と分散の加法性
関数 $${f(x_1,\cdots,x_n)}$$ が一次式の場合には等号が成立し、これが分散の加法性そのものであることを示します。このことから、分散の劣加法性は分散の加法性の拡張になっているといえます。
関数が一次式 $${\displaystyle f(x_1,\cdots,x_n)=\sum_{i=1}^{n}w_ix_i}$$ の場合、$${X_1}$$ 座標方向の期待値は以下のようになります。
$$
\begin{align*}
\mathbb{E}_{1}[Y] &= \mathbb{E}\left[Y\mid X_2,\cdots,X_{n}\right]\\
&= \mathbb{E}\left[w_1X_1\mid X_2,\cdots,X_n\right] + \sum_{i=2}^{n}w_iX_i\\
&= \mathbb{E}\left[w_1X_1\right] + \sum_{i=2}^{n}w_iX_i\\
&= w_1\mathbb{E}\left[X_1\right] + \sum_{i=2}^{n}w_iX_i\\
\end{align*}
$$
これから $${X_1}$$ 座標方向の分散は以下のように計算できます。
$$
\begin{align*}
\mathbb{V}_{1}[Y] &= \mathbb{E}_{1} \left[(Y-\mathbb{E}_{1}[Y])^2\right]\\
&= \mathbb{E} \left[w_1^2(X_1-\mathbb{E}[X_1])^2\mid X_2,\cdots,X_n\right]\\
&= w_1^2\mathbb{E} \left[(X_1-\mathbb{E}[X_1])^2\right]\\
&= w_1^2\mathbb{V}\left[X_1\right]
\end{align*}
$$
このことは $${X_2,\cdots,X_n}$$ に対しても成り立ちます。あとは分散の劣加法性の右辺にこの結果を代入することで、等号成立条件が分散の加法性そのものであることを確認できます。
$$
\begin{align*}
\mathbb{V}[Y] &= \sum_{i=1}^{n}w_i^2\mathbb{V}[X_i]
\end{align*}
$$
4 Doob martingale
第4節では、分散の劣加法性の証明を理解する上で技術的に重要な役割を果たすDoob martingaleを紹介します。
4.1 martingale
Doob martingaleを紹介する前に、まずはmartingaleを導入します。確率変数列 $${Y_1,Y_2,\cdots}$$ が確率変数列 $${X_1,X_2,\cdots}$$ に対して以下の三条件を満たすとき、変数列 $${(Y_i)_{i=1}^{\infty}}$$ は変数列 $${(X_i)_{i=1}^{\infty}}$$ に対してmartingaleであるといいます。
$${\mathbb{E}\left[|Y_i|\right]<\infty}$$
$${Y_i=g(X_1,\cdots,X_i)}$$
$${\mathbb{E}[Y_i\mid X_1\cdots,X_{i-1}]=Y_{i-1}}$$
4.2 Doob martingale
確率変数列 $${X_1,\cdots,X_n}$$ を用いて定義した統計量 $${f(X_1,\cdots,X_n)}$$ の条件付き期待値 $${Y_i:=\mathbb{E}[f(X_1,\cdots,X_n)\mid X_1,\cdots,X_i]}$$ の列は、関数 $${f(x_1,\cdots,x_n)}$$ が有界なとき確率変数列 $${X_1\cdots,X_n}$$ に対してmartingaleになります。
関数の有界性から $${\mathbb{E}\left[|Y_i|<\infty\right]}$$ が従う。
条件付き期待値の定義から $${Y_i=\mathbb{E}[f(X_1,\cdots,X_n)\mid X_1,\cdots,X_i]}$$ は $${X_1,\cdots,X_n}$$ の式として表すことができる。
期待値のタワー公式を用いて、$${\mathbb{E}[Y_i\mid X_1\cdots,X_{i-1}]=Y_{i-1}}$$ を示せる。
$$
\begin{align*}
\mathbb{E}\left[Y_i\mid X_1,\cdots,X_{i-1}\right] &= \mathbb{E}\left[\mathbb{E}\left[f(X_1,\cdots,X_n)\mid X_1,\cdots,X_{i}\right]\mid X_1,\cdots,X_{i-1}\right]\\
&=\mathbb{E}\left[f(X_1,\cdots,X_n)\mid X_1,\cdots,X_{i-1}\right]\\
&= Y_{i-1}
\end{align*}
$$
このように定義した確率変数列 $${Y_1,\cdots,Y_n}$$ をDoob martingaleといいます。
4.3 Doob martingaleの増分に成り立つ性質
Doob martingaleの増分 $${\Delta_i:=Y_i-Y_{i-1}}$$ には二つの重要な性質があります。
定理 Doob martingaleの増分 $${\Delta_i}$$ には以下の二つの性質が成り立ちます。
$${\mathbb{E}\left[\Delta_i\mid X_1,\cdots,X_{i-1}\right]=0}$$
$${\mathbb{E}\left[\Delta_i\Delta_j\right]=0}$$, $${i\neq j}$$(直交性)
証明 1は次のようにして証明できます。
$$
\begin{align*}
\mathbb{E}\left[\Delta_i\mid X_1,\cdots,X_{i-1}\right] &= \mathbb{E}\left[Y_i-Y_{i-1}\mid X_1,\cdots,X_{i-1}\right]\\
&= \mathbb{E}\left[Y_{i}\mid X_1,\cdots,X_{i-1}\right]- \mathbb{E}\left[Y_{i-1}\mid X_1,\cdots,X_{i-1}\right]\\
&= Y_{i-1} - Y_{i-1}\\
&= 0
\end{align*}
$$
2は次のようにして証明できます。以下、$${i>j}$$ とします。
$$
\begin{align*}
\mathbb{E}\left[\Delta_i\Delta_j\right] &= \mathbb{E}\left[\mathbb{E}\left[\Delta_i\Delta_j\mid X_1,\cdots,X_{i-1}\right]\right]\\
&= \mathbb{E}\left[\mathbb{E}\left[\Delta_i\mid X_1,\cdots,X_{i-1}\right]\Delta_j\right]\\
&= \mathbb{E}\left[0\times\Delta_j\right]\\
&= 0
\end{align*}
$$
ここで2行目は期待値のタワー公式、3行目は条件付き期待値の性質、4行目はこの定理の1番目に示したことを用いました。■
さらに2.3節の議論から $${X_1\cdots,X_n}$$ が独立な場合には $${Y_d=\mathbb{E}_{n}\cdots\mathbb{E}_{d+1}[Y]}$$ と表すことができます。
5 分散の劣加法性の証明
2.4節で紹介した座標方向の期待値の性質、第4節で紹介したDoob martingaleを用いて分散の劣加法性を証明します。
$${Y_i}$$ を確率変数列 $${X_1,\cdots,X_n}$$ に対するDoob martingale、$${\Delta_i}$$ をその増分とします。左辺は次のようにしてDoob martingaleの増分で表せることがわかります。
$$
\begin{align*}
\mathbb{V}[Y] &= \mathbb{E}[(Y-\mathbb{E}[Y])^2]\\
&= \mathbb{E}[(Y_n-Y_0)^2]\\
&= \mathbb{E}\left[\left\{(Y_1-Y_0)+\cdots+(Y_n-Y_{n-1})\right\}^2\right]\\
&= \mathbb{E}\left[\left(\Delta_1+\cdots+\Delta_n\right)^2\right]\\
&= \mathbb{E}\left[\Delta_1^2\right] + \cdots + \mathbb{E}\left[\Delta_n^2\right]
\end{align*}
$$
ここで、2行目には2.4節で紹介した事実から $${Y_n=Y,Y_0=\mathbb{E}[Y]}$$ が成り立つことを用いました。5行目にはDoob martingaleの増分の直交性を用いました。さらに右辺の $${\mathbb{E}[\Delta_i^2]}$$ は次のように評価できます。
$$
\begin{align*}
\mathbb{E}[\Delta_i^2] &= \mathbb{E}[(Y_{i}-Y_{i-1})^2]\\
&= \mathbb{E}[(\mathbb{E}_n\cdots\mathbb{E}_{i+1}[Y]-\mathbb{E}_n\cdots\mathbb{E}_{i}[Y])^2]\\
&= \mathbb{E}\left[\left(\mathbb{E}_n\cdots\mathbb{E}_{i+1}\left[Y-\mathbb{E}_{i}[Y]\right]\right)^2\right]\\
&\leq \mathbb{E}\left[\mathbb{E}_n\cdots\mathbb{E}_{i+1}\left[\left(Y-\mathbb{E}_{i}[Y]\right)^2\right]\right]\\
&= \mathbb{E}\left[\mathbb{E}_{i}\left[\left(Y-\mathbb{E}_{i}[Y]\right)^2\right]\right]\\
&= \mathbb{E}\left[\mathbb{V}_{i}[Y]\right]
\end{align*}
$$
ここで2行目は2.4節の結果から $${Y_i=\mathbb{E}_n\cdots\mathbb{E}_{i+1}[Y]}$$ と表せることを用いました。4行目はJensenの不等式または分散の公式です。5行目は2.3節で紹介した座標方向の期待値 $${\mathbb{E}_{i}}$$ が持つ冪等性と可換性、2.4節で紹介した $${\mathbb{E}=\mathbb{E}_n\cdots\mathbb{E}_{1}}$$ を組み合わせることで従います。
$$
\begin{align*}
\mathbb{E}\mathbb{E}_{n}\cdots\mathbb{E}_{i+1}&= \mathbb{E}_{n}\cdots\mathbb{E}_{1}\mathbb{E}_{n}\cdots\mathbb{E}_{i+1}\\
&= \mathbb{E}_{n}\cdots\mathbb{E}_{1}\\
&= \mathbb{E}_{n}\cdots\mathbb{E}_{1}\mathbb{E}_{i}\\
&= \mathbb{E}\mathbb{E}_{i}
\end{align*}
$$
以上で分散の劣加法性を証明することができました。
Remark 5行目は、以下のように期待値のタワー公式を二回使って直接証明することも可能です。$${Z=(Y-\mathbb{E}_{i}[Y])^2}$$ とします。
$$
\begin{align*}
\mathbb{E}[\mathbb{E}_{n}\cdots\mathbb{E}_{i+1}[Z]]
&= \mathbb{E}[\mathbb{E}[Z\mid X_1,\cdots,X_n]]\\
&= \mathbb{E}[Z]\\
&= \mathbb{E}[\mathbb{E}[Z\mid X_1,\cdots,X_{i-1},X_{i+1},\cdots,X_n]]\\
&= \mathbb{E}[\mathbb{E}_{i}[Z]]
\end{align*}
$$
こちらの方が機械的な証明にならないので、納得しやすいという意見もあるでしょう。■
Acknowledgement
普段から支援してくださっているコミュニティの皆さま、株式会社すうがくぶんかの方々に感謝申し上げます。
References
[vR] Van Handel, Ramon. "Probability in high dimension." Lecture Notes (Princeton University) (2014).
サポートをいただいた場合、新たに記事を書く際に勉強する書籍や筆記用具などを買うお金に使おうと思いますm(_ _)m