見出し画像

数理統計学の事始め~確率変数、期待値など~


数学を排除しすぎると分からない統計学

現代におけるAI(機械学習)の成功により統計学というのは必要性を増している。しかし、統計学自体は本気で定式化すると数学科専門レベルの数学が必要となり、一般の人にはあまり理解できない代物である。
そんな中数学になじみがない一般の人にも分かるような統計学の入門書も多く出版されているが、数学を排除しすぎると逆に理解することが困難になってしまうという特性もまた統計学の特徴である。例えば、xを実現値とし、Xを確率変数として明確な定義を与えないまま議論を進めると結局いつまで経っても分からなくなってしまう。
何も測度論からやれ、と言っている訳では無く、さほど胡麻化しなく十分腑に落ちる程度の数学は先に進むために必要である。つまり、統計学学習において数理統計学は避けては通れない道である。

初歩の概念を正確に学ぼう

とりわけ、確率変数、実現値、確率密度関数、分布関数、期待値という最初の概念は必ず正確に理解されるべきであるし、最も大切であり、結構難しい。そして、これらは単独で理解というより全てを理解してひとつという所があり、厄介な部分である。
そこで本記事では数理統計学の最初の一歩の概念を正確に本質的、そして哲学的に解説することを目的としている。

不確定な事象と確定式

さて、花粉を水の上にパラパラと落とす実験を考えよう。この時、花粉一粒一粒は小さすぎて水分子の微細な動きに影響を受ける故、古典的な力学として制御できる動きではない。即ち確定的な動き$${x(t)}$$ではない。
しかし、一切の定式化が不能という訳では無い。何故ならば水の上に垂らした花粉粒子が1秒後に1km先にいることはあり得ないと誰しもが思う故、動きは何らかの意味で確定的な束縛を受けているからだ。それはつまり、花粉粒子の数Nを無限に持って行った時に数秒後は粒子の集合として見て、何らかの形に分布している事を表している。集合的に制御されるという事は、一粒で見た時に粒子はその位置に確率的に存在しているという事と同じである。
今例えば花粉粒子の1秒後の姿を固定(※簡単の為、1秒という時間を固定するだけ。以降同じ)して考える。ここで確率論の一番のポイントは花粉粒子の位置xという不確定な姿を、確率変数Xの式としては確定的に見ようという事だ。こうすると逆説的に確率変数Xは代数学的な元以上の意味を持たねばならないだろう。即ち、確率変数Xは関数でなければならないことが分かる。

確率変数と実現値

今$${\Omega}$$を全事象の空間とし、$${\omega}$$をその元として表現することにする。先の例であれば$${\omega}$$は一粒の花粉を垂らし、未来まで動かした上で確定される歴史そのものになる。そして花粉の位置の全体(実現される可能性のある全て)を標本空間と言い$${\chi}$$で表す。先の例であればx軸方向のみの動き(※1秒後)を取るとすれば$${\chi = (- \infty, \infty)}$$の事である。
そして、1粒子にとって1回の歴史$${\omega \in \Omega}$$が確定されたとき、その時の1秒後の姿は確定的であると言え、これを実現値xと呼ぶ。つまり実現値は$${x = X(\omega)}$$である。
そして確率論や統計学においては歴史$${\omega}$$を不確定要素とし、不確定性を含んだ式、即ちこの意味では確定式を操作する。即ち確率変数Xのみを使った式を操作すると言うことである。ここで、X自身は関数として数学的に意味づけられているので、式はきちんと数式的に意味があるものになっている。

分布関数

確率変数Xは一粒の花粉粒子の位置の可能性を確率的に表記したものなので、花粉の集合としては分布が確定する。(逆に分布が確定するから確率変数Xを考えることが出来るともいえ、これは同等)。
$${F(x) = P(X \leq x)}$$
の関数Fを分布関数と言う。つまり確率変数Xは不確定なのだが、$${X(\omega) \leq x}$$を満たすような歴史の全ての歴史に関する割合$${P(X \leq x)}$$をもってFを定義しているということである。
ここで確率法則Pがあれば分布Fを考える事が出来、分布Fを考えることが出来れば、確率変数Xが決定する。逆も言え、全て同等である。

確率密度関数

分布関数が
$${F(x) = \int_{-\infty}^{x}f(t)dt}$$
と表現可能な時、この時の関数fを確率密度関数と言う。重要な確率分布は確率密度fを持っており、その場合より解析的になる。
注意として
$${f(x) = P(X = x)}$$
は成立しない。位置xピンポイントに花粉粒子が存在する可能性は数直線が連続である事を考えれば0であるが、fが恒等的に0なるならば確率密度を定義する必要がない。ある意味近いが、連続分布の場合は全く違うので、fは$${X=x}$$における密度と呼ぶより他にない。

期待値

メタ的に考えて、統計学とは歴史$${\omega}$$を確定させずとも言える事に興味がある(※逆にそうでなければ単なる微分積分学になるだろうから)。「歴史を確定させずともいえることがあるのか?」と思う人は、再び花粉の例を思い出してほしい。上記例は花粉一粒では無く集合として束縛を受けていた(※つまり分布Fははっきりしていると言うこと)。即ちこの集合的束縛(※分布)周りの事項をまとめようという事に興味があるのだ。
その一つが期待値$${E[X]}$$であり、統計学において最も重要な特徴量のひとつだ。確率変数Xは関数なので、$${E[X]}$$は歴史$${\omega}$$について集約した分布に対する特徴量を意味する。確率密度fが存在する場合に期待値は
$${E[X] = \int_{-\infty}^{\infty}xf(x)dx}$$
と定義される。xは花粉の位置を表し、$${dF = f(x)dx}$$は位置それぞれに対して分布、その密度に対する重み付きで積分することを意味する(※全空間の積分が1となるようなStieltjes測度(=確率測度と呼ぶ)による位置変数xの積分)。つまり、あくまでも期待値の主変数は位置xであり、位置xの歴史の可能性的な平均値を指し示している。
注意としてこれは、位置データ$${x_i}$$の平均値$${\sum (x_i / n)}$$とは全く違う。後者はあくまでも実際に取れたものの平均であり、前者はまだ見ぬ可能性(※それこそ統計学の主題)に対する平均であるからである。これは混同しやすいから注意。厄介なのは実際に取れたものを無限個集めてその統計量を考えれば、可能性に対する統計量(期待値)と等しくなりそう、と直感的に思えてしまう事であるが、正確には無限個集めようと無限個集める歴史ひとつにまたバイアスがかかるので、少なくとも前者と後者の差に対して確率的標記をなくすことは出来ない。

皆も哲学しよう

統計学は直感と、建前がとても良く融合していて、どちらサイドから見ても難しいという特徴があるように思う。
現実社会的な要請を除いても深く面白い分野である。

良かったらスキ、フォロー、シェアしてね!!!!!♡


この記事が参加している募集

数学がすき

この記事が気に入ったらサポートをしてみませんか?