統計的有意性の利用を止めるのは妥当なのか

統計的有意性って言うのやめよう」という趣旨の話題のNature論文に対する、統計哲学者デボラ・メイヨーの批判

ざっくりまとめると「考え無しに閾値を使ってはいけないからといって、その閾値を捨てたらさらにひどいことになる」という主張。

Nature論文の大意
有意性やめよう声明では
・(あるないの二分法ではなく)統計の不確実性を受け入れる必要がある
・統計的有意差ではなく信頼区間を使うべき
・「信頼区間」という単語も「互換区間」(compatibility intervals)に言い換え、計算結果への過剰な信頼を避けるようにすべき
が内容の大意となっている。

個人的には、有意性の有無の二分法が科学の前進を阻害しているというNature論文の問題意識はよく分かる。調査した論文の約半数が「統計的有意性」を誤用しており、科学にとって深刻な損害をもたらしていると。

Pハッキング

こうしたP値や統計的有意性を使った仮説の検定を行うことが正しいかどうかという議論はずいぶん前から、統計学の世界では議論されてきたことでもある。

データ業界では「Pハッキング」という言葉が使われたりするが、研究者が「自分の主張したい結果を得るために都合よくP値を調節したりすること」。
業界では一般的にP値が「5%より低ければ」という標準のようなものが独り歩きしてしまっているので、これをいいように利用する人たちがいたりする。

一般的には、こういった明らかな悪意がある場合よりも、ただ単純に研究者の統計学の勉強不足による、うっかりミスのようなものが多い。

メイヨー氏の主張

「I agree that one shouldn’t mechanically use P< .05. Ironically, they endorse a .95 confidence interval CI. They should actually use several levels, as is done with a severity assessment.」
それに対し、メイヨー氏は閾値の有無は本質ではないと主張している。

「I have objections to their interpretation of CIs, but I will mainly focus my objections to the ban of the words “significance” or “significant”. It’s not too hard to report that results are significant at level .001 or whatever. 」
そして有意性の利用を禁止にするのを反対している。

Nature論文の問題意識はよく分かる一方で、科学コミュニケーションの観点から、専門家の間では通用しても専門家以外へ情報を発信するにあたり p<.05のような基準がないと効果の有無を表現しずらいので、有意性基準をすぐになくすのは難しいだろうなあと感じる。

統計学の教育の重要さ
こうした「統計的有意」であったり、P値に対する問題があったとしても、それを解決するための現実的で最も効果的な方法は、研究者や分析者をはじめ、さらにそうした研究結果による影響を受けることになる一般の人達に対しても、もっと統計学の教育を行っていくべきだろうと思う。

・そもそも、P値が何であって、何でないのか?
・「統計的有意」または「有意でない」はどのように導かれるのか?
・その前提は、そのリスク(タイプ1エラー、タイプ2エラー)は?
・こうした「統計的な有意性」をどう解釈することで、よりよい意思決定に導いていくことができるのか
ということをもっと多くの人により正確に伝えていくべきだろう。

この世の中は不確実なものの集まりであり、曖昧さの集合であるので、特に人を相手にしているビジネスの場合は、「Good」「Bad」みたいな絶対的な判断はそもそもできない。
そういう前提で、物事を確率的に捉え、リスクと不確実性を考慮した上でよりよい意思決定を行っていくことを啓蒙する必要があるのだろう。


この記事が気に入ったらサポートをしてみませんか?