見出し画像

データから原因を探る「ベイズ統計」

第三次AIブームの今、ベイズ統計が注目されていますよね。

全く個人的な話ですが、統計学の話は「整理しなきゃ」と思いつつできておらず(いったいどれだけ時間経ってるのだろう、くらい放置しており)、ずっと気持ち悪かったのです。

ここでは、統計学の歴史的な背景を含め、ベイズ統計が「いったい何なのか?」、「何が良いの?」という視点で記事を書くことにしました。

ベイズ統計は流行(はやり)ものなの?

ベイズ統計学 (Bayesian statistics) は、普通に利用されているものです。機械学習はベイズ理論をベースに設計されていますから、この領域では基本的な話であり、その意味では、流行っている、と言っても良いのかもしれませんね。

ベイズ統計では、原因の可能性となる要素 が非常に多い場合や統計学的モデルが複雑な場合や、ある時点での分析対象データ小出しにされるような場合などに、活用できます。

実際に利用されている身近な例としては、迷惑メールのフィルタリング、インターネット上の検索エンジン、自動翻訳などもベイズ統計がベースになっています。

また、医学領域では非常に有効な理論で、患者さんの特徴や症状といった多数の情報とモデルから病気の診断を導くこに役立ちます。

新型コロナウィルスの感染確率もそうです。PCR検査の結果、陽性と判断された方の人数が発表されています。最近は、偽陽性(本当は感染者では無いのに検査結果が陽性)や偽陰性(本当は感染者なのに検査結果が陰性)の話題もあります。結局のところ真実が分からないまま、人々はモヤモヤとしているのではないでしょうか。ベイズ統計により人々に有用な情報が整理されることを切に願います。

ベイズ統計以外の統計学って何なの?

実験または理論的考察(思考実験)から求められる客観確率として、推計統計学 (inferential statistics) というものが多く活用されています。限られた標本から調査したい母集団全体の特徴を推測する、というもので、客観的データに紐づく分析結果であるとして様々な調査分析に利用されています。

私がここ2年程足を踏み入れてしまった社会科学の研究領域では、ある仮説に対してそれが正しいのか否かを統計学的に検証すること、つまり、仮説検定 (hypothesis testing)を中心とした推計統計学が主流ですね。

推計統計はフィッシャーらによって確立され、今も社会科学の分野では活用されているものです。統計学の領域では、古典統計学とも言われていますが、手法が確立しているという意味では、そうなのかな、と納得感もあります。

一般的に良く目にするであろう「統計の結果○○です」という場合は、アンケート結果をわかりやすく整理して表やグラフで表現した記述統計学 (descriptive statistics)か、推計統計なのではないかと思われます。

推計統計 vs. ベイズ統計 - なぜ派閥争いをするの?

特に、推計統計とベイズ統計では、母数は不変であると考える推計統計と母数が確率的に動くとみなし推測するベイズ統計では根本的な考え方の違い(客観確率 vs. 主観確率)が分かりやすく、研究者間に派閥のようなものを生みやすい背景なのかなぁ、と想像しています。

実際に、XXX派、XXX派となっている時代の状況は詳しくわかりませんが、基本的に研究者とは先行研究の結果を批判することが仕事ですし、どの学問領域でも派閥というものはありますよね。
推計統計学を確固たるものにした研究者であるフィッシャーらも自身の研究成果であるを確立するための批判対象として、ベイズ統計は格好の主義・主張であったのでしょう。

「異端」だったベイズ統計学の復活の立役者

ベイズ統計学は、実は随分の昔、17世紀とか18世紀に確立されている学問ですが、複雑な分析には多くの計算が必要です。そのため、20世紀までは頻度主義的解釈に基づく推計統計が用いられてきたという流れもあります。

そういえば、20世紀に学部生(数学科)だった自分も、統計学の授業では推計統計しか学んでいなかったと再認識しました。

その後、計算能力の高いコンピュータやマルコフ連鎖モンテカルロ法(※)のような新たなアルゴリズムの出現などもあり、ベイズ的手法が見直され実際に利用されるようになった、ということです。
※マルコフ連鎖モンテカルロ法を超簡単説明すると、「現在状態から未来予測シミュレーションする手順」です。

このベイズ主義の再興は、地震などの頻度が高くない現象の統計的分析や食中毒の感染源分析など社会に役立てようと色々と検討した研究者の貢献によるものということです。

数世紀を経て復活する学問、ロマンあるし、ワクワクする話ですねぇ。

まとめ

このように、データから未来を予想するという社会で役立つ期待のあるベイズ統計学ですが、サイコロの話を例に説明されていることが良くあります。
これ、個人的には今一つピンとこないので好みではありません。
なので、もっと自分の言葉で説明できるようになりたいです。勉強します、はい。

それから、大事なこと2つ。

ベイズ統計と推計統計どっちが良いという話ではなく、何を明らかにしたいのか、結果をどう社会に役立てるのか、その研究の背景を良く考えることが必要ということ。

研究者であれば、複数の学問や手法を正しく理解し、分野に応じて意味を考えて適用できるようになることが必要ということ。

再認識しました。もっと勉強しなきゃいけないですね。

自らの頭の整理のつもりで書いた記事、最後まで読んでいただき、ありがとうございました。

今回の記事は、以下の資料を参考にしています。どちらも読みやすいのでおススメです。

サポートいただけると嬉しいです。 次の記事投稿への活力になります。