山岡重行聖徳大学講師の拙稿への「批判」と統計学理解の問題及び研究教育倫理の重篤な問題について③――山岡氏のBonferroni調整をめぐり

2019年7月17日 18:51

やはり、社会統計学上の問題とは一応独立している倫理的問題についての記録保存だけでは、いくらなんでも学術的な議論への寄与が少なすぎると思うので、まだ吟味したかったが、山岡重行氏自身の分散分析・検定の疑問点について2回ほどかけて記しておきたい。　今回は一回目である。

既述のように、山岡（2019）の統計的検定に関する解釈は独特であるし、米国統計学会のp値声明（Wasserstein and Lazar 2016，佐藤訳 2017）において誤解とされているものである。また、山岡（2019）の統計的検定における方針は、米国統計学会のp値声明には沿っていない。しかし、ここではとりあえず百歩譲って（譲るつもりはないことは後日論じる）、米国統計学会p値声明の方針ではなくて、山岡（2019）の方針に従うとしよう。
山岡（2019，p.172）によると、同書では「本研究では、分散分析で主効果が認められた場合はBonferroni法の多重比較を行い群間の有意差を検定している」（山岡 2019，p.172）とのことである。
しかし、この山岡流の検定方式は、1回の群間比較として見た場合、以下の4点において、過度に保守的な検定となっている。

1. 一元配置分散分析のF検定を行ってそのF検定が有意な場合のみにBonferroni法やTukey法といった多重比較を行うと過度に保守的になる（Wilkinson and the Task Force on Statistical Inference 1999，p.599)。
2. Bonferroni法は、Tukey検定と比べて保守的である（永田・吉田 1997，p.37）。
3. 検定だけを考えるのであれば、Bonferroni型調整法のステップダウン方式としてHolm法やShaffer法がある（永田・吉田 1997，pp.87－103）。また、Tukey型調整法のステップダウン方式もすでに提案されている（Royen 1989）。
4. 興味があるのは、男性内における群の違いと、女性内におけるの群の違いだろう。もしそうならば、全群の対比較を行う必要はなく、興味がある箇所だけを比較すればよい（Wilkinson and the Task Force on Statistical Inference 1999，p.599)。

なぜ、「分散分析で主効果が認められた場合はBonferroni法の多重比較を行い群間の有意差を検定」（山岡 2019，p.172）する方式を取っているのか、根拠が全然分からない。

上記の指摘は検定が保守的になりすぎているという指摘である。しかし、これは、あくまでも1回の群比較に関してだけである。書籍全体で見ると、第1種の過誤の確率は、逆に、相当に膨れ上がっていると思われる。
山岡（2019）のp.172を読む限り、山岡氏は多重性を気にしているようである。それなのに、山岡（2019）では、全部で1900回程度の群間比較が行われている（F検定が行われている個所で、すべての群に対して群間比較が検定されていると想定した）。そして、不思議なことに、その約1900回の群間比較に対する多重性調整はまったく行われていない。多重性を気にするのであれば、かつ、Bonferoni法を採用するのであれば、1900回の検定をしたのであれば生のp値を1900倍する必要がある。
生のp値を約1900倍するなどの何かしらの多重性調整をしなければ、書籍全体でみたときの第1種の過誤は膨れ上がってしまっている。統計的検定を約1900回も実行すれば、かなりの確率で、そのうちのいくつかは有意となる。「ないものをあると主張することを捏造と呼ぶ」（p.72）と言い切れるまでの強い信念があるのであれば、多重性調整を行うのが穏当だろう。
もし山岡（2019）のように「事実認定」として統計的検定を使いたくて、かつ、実際に約1900回以上ものの検定を行うのであれば、素直に多重性調整を行うべきである。たとえば、ゲノムワイド関連研究では数十万～数百万もの検定が実施されるという（松井，p.128）。そのためゲノムワイド関連研究では、有意水準の1つとしてゲノムワイド有意水準である5×10^(-8)が使われることがある（松井，p.128）。「ないものをあると主張することを捏造と呼ぶ」（山岡 2019，p.72）と言っているが、現状としては山岡（2016）と山岡（2019）の結果には、たとえ無作為抽出モデルが正しかったとしても ―そもそそも、無作為抽出データではないのだから、この時点でかなり苦しいのではあるが ―、少なからずの平均差に関して「ないものをあると主張」（山岡 2019，p.72）していることになっているだろう。私はそこまで技術的な点については山岡氏を批判しないつもりであったが、あまりの強い罵倒を読みながら、氏の統計理解の問題の根幹について読者に知ってもらう必要を感じた。基礎なきところに「応用」などありえない。

要するにp値をどのように捉えているのかという基礎的な問題である。

やはりあらためて、本丸である山岡氏の推測統計の理解の問題へと立ち戻る必要があるだろう。

この記事が気に入ったらサポートをしてみませんか？