パターン認識と機械学習 学習ノート - 確率1


この記事は「パターン認識と機械学習 (丸善出版社)」の読書ノートです。


ここからはこれからの議論の礎となる、確率論を展開していく。

まず、確率とは何か。確率とは確からしさを表す尺度の一つだ。確からしいほど値が大きくなり、逆に確からしくないほど値は小さくなる。また確率は上にも下にも有界である。つまり完全に確か(真)であるとき、確率は最も大きい値をとり、逆に全く確かでない(偽)とき、確率は最も小さい値をとる。
このような性質を持つ尺度は何も確率でなくとも作ることはできる。確率はいわば人が確からしさを議論するときのデファクトスタンダードだ。確率を利用することで確からしさに対する定量化と操作に関して一定の枠組みが与えられる。

確率を議論するうえで最重要な2つのルールを定めよう。1つ目は確率の最大値は1で、最小値は0だということだ。つまり完全に確か(真)である確率を1、逆に全く確かでない(偽)確率を0と定める。これにより確率は必ず$${[0,1]}$$の閉区間内に値をとることになる。2つ目は、取りうるすべての事柄 - 例えばサイコロの目で言えば、1~6の目が出るそれぞれの事柄 - に対して、各事柄に対する確率の総和は1になると定める。

今、二つの確率変数を$${X, Y}$$とする。確率変数とは確からしさを議論するうえで実際に我々が認知する対象のことだ。より具体的に言うと例えば「サイコロを振ったときに出た目の数」だったり「トスされたコインの表裏」だったりする。事象$${E}$$が起こる確率を$${p(E)}$$と表す。事象とは、確からしさを議論したい事柄を指す。例えば$${X}$$のとりうる値が$${\{x_i\}_{i=1}^N}$$であったとき、$${X = x_i}$$である確率は$${p(X = x_i)}$$、$${X \in \{1,2,3\}}$$である確率は$${p(X \in \{1,2,3\})}$$と表される。

以降、$${X, Y}$$のとりうる値はそれぞれ$${\{x_i\}_{i=1}^N, \{y_i\}_{i=1}^M}$$とする。$${X = x_i}$$であり、かつ$${Y = y_j}$$である確率は$${p(X=x_i, Y=y_j)}$$と表され、これを$${X, Y}$$の同時確率という。

十分大きな$${L}$$回分、$${X, Y}$$を同時に決める試行をしたとして、$${X=x_i}$$であった回数を$${c_i}$$、$${Y=y_j}$$であった回数を$${r_j}$$、$${X=x_i}$$かつ$${Y=y_j}$$であった回数を$${l_{ij}}$$とする。このとき以下が成立する。

$$
\begin{array}{l}
p(X=x_i) = \frac{c_i}{L}\\
p(Y=y_j) = \frac{r_j}{L}\\
p(X=x_i, Y=y_j) = \frac{l_{ij}}{L}
\end{array}
$$

さて、$${X=x_i}$$であった回数$${c_i}$$は$${X=x_i}$$かつ$${Y=y_j}$$であった回数$${l_{ij}}$$を使って$${c_i = \sum_j l_{ij}}$$と書ける。同様に$${Y=y_j}$$であった回数$${r_j}$$は$${r_j = \sum_{i} l_{ij}}$$となる。この事実と上式から

$$
\begin{array}{l}
p(X=x_i) = \frac{c_i}{L} = \sum_j \frac{l_{ij}}{L} = \sum_j p(X=x_i, Y=y_j) \\
p(Y=y_j) = \frac{r_j}{L} = \sum_i \frac{l_{ij}}{L} = \sum_i p(X=x_i, Y=y_j) \end{array}
$$

が成り立つ。これは確率の加法定理と呼ばれる。また同時確率$${p(X=x_i, Y=y_j)}$$に対し、$${p(X=x_i), p(Y=y_i)}$$を周辺確率という。

次は条件付き確率を定義する。今、$${X=x_i}$$であるという情報が与えられたとする。この時点ですべての起こりうる事象の数は$${c_i}$$回に制限されることになるから、私たちが感じる$${Y=y_j}$$が起きる確からしさ(確率)は$${\frac{l_{ij}}{c_i}}$$になってしまう。これを条件付き確率といい、

$$
p(Y=y_j|X=x_i) \equiv \frac{l_{ij}}{c_i}
$$

と表す。条件付き確率と同時確率の関係性は次のように表される。

$$
p(X=x_i, Y=y_j) = \frac{l_{ij}}{c_i}\cdot\frac{c_{i}}{L} = p(Y=y_j|X=x_i)p(X=x_i)
$$

この関係性は確率の乗法定理と呼ばれる。

この記事が気に入ったらサポートをしてみませんか?