数学・確率・統計がどのように使われているかを知ろう(1)

今回は「(b) 数学・確率・統計がどのように使われているかを知ろう」に関係すること、標本調査と区間推定について書いてみようと思います。ただし内容は、統計分野では基礎の基礎。。方向性としては、今の新型コロナ関係で出て来る事柄を少し関連づけて説明してみようと思います。

記述統計学
学校で習う統計では、直接計算を伴うものとして、データの平均、分散、最大値、最小値、中央値、四分位などから始まると思います。平均は値を全部を足して値の数で割る。分散はデータの値から平均値を引いて。。。最大、最小、中央値などは、データを大きさ順に並べて数える。このようなデータがすべて揃っている時に用いる統計を、記述統計学と言います。


しかし統計学が本領を発揮するのは、データが揃っていない時に行う推測の分野だと言っても良いでしょう。

よく考えてみると、データがすべて揃っていることは、実社会では稀です。学校などの試験の点数、スポーツにおけるスコアなどの情報は、全部のデータが揃っています。しかし多くの場合、データを全て集めるには、コスト、時間の問題があったり、そもそも原理的または天文学的なデータ数になるため不可能であったりします。

推測統計学と標本調査
そこで行われるのが、「標本調査」。例えばある品種のリンゴの重さ。全部を測ることはできませんが、例えば10個測れば大体この位かな、という重さが推定できるはずです。これが標本調査の基本の考え方です。全部を計測していなくても、平均的な重さはこれくらい、と言える。別の10個を選んで測っても、重さはそれほど変わらないだろう。そして10個でなく100個測ったら、10個からの結果よりも信頼できるだろう。統計学では、このような感覚をきちんと数式化します。結果は例えば「95%信頼区間は○○~XX」という形で示されることになります。(「○○~XX:95%CI」などと表現される場合もあります)

学術的にデータを扱う場合、予測する値に信頼区間の記載は前提です。これまでのこのnoteの記事でも何度か出てきてます。超過死亡の話題でも、(多少の違いはあるものの)この信頼区間が出て来ました。「ワクチンの感染予防効果が低下するデータ 」「ワクチンの議論は「有効性」の意味を理解することから始めよう 」などにも出て来ました。

画像1

しかし、日本の報道では、推定値は点推定がほとんどで、区間推定はほぼ使われることがありません。NHKが報道した記事について書いた「ファイザーワクチンの感染予防効果は、89%→39%(1か月以内→5か月以内)に低下」でも、元情報では区間推定があるものの、NHK記事にはそれがありませんでした。

時々は説明をしていることもあるようです。例えば区間推定という言葉はありませんが、区間推定のことを説明した記事の例を見つけました。「3分でわかる政治の基礎知識 世論調査のマジック「内閣支持率が1ポイント上がった」は間違い」です。

毎日新聞の定例の全国電話世論調査は、コンピューターで無作為に数字を組み合わせて作った固定電話と携帯電話の番号に調査員が電話をかけるRDS法で行われ、サンプル数は約1000です。統計的に十分な信頼を得られる数字です。同時に3ポイント程度の誤差があります。

将来のことを予測する時も、勿論データを集めることができません。このため何らかの方法で推測を行うことが必要になってきます。その例が、超過死亡の途中で出て来た上限、下限になる訳です。


区間推定に関するざっくりとした説明は以上です(簡単すぎ)。標本調査というものがあって広く使われている。結果は確率95%のような数値と、区間で表現される。こんな話題でした。


(a) データリテラシーを向上させよう
デーの成り立ち、解釈、伝聞に注意/わからないことは、わからないということが正しい/発信者の発言目的も意識しよう/人は安心したい、騙されたとは思いたくない/人は自分が正しいと思う(思いたい)情報を探す
(b) 数学・確率・統計がどのように使われているかを知ろう
全数調査できないから一部を調査/幅のある推定を知ろう/「有効性あり」と科学的に主張するには仮説検定/因果関係と相関関係は別物/直接の因果関係が不明でも統計ならできることがある/人は無意識に数学を使っている
(c) 多くの反論に耐えることが科学だ
反論こそが科学の発展を促した/嘘・捏造・作為的データも存在する/同じ方向を向く結果は信頼できる