多項目検定

学生に聞かれて久しぶりにちょっとだけ考えたので,健忘録として書いておくことにしました.

ここは違うよという点ありましたら,教えて下さい.

お題は多項目検定です.

 自分が作った操作方法Aと,同じ目的のために作られた二つの操作方法B,Cに比べての操作性のよさを示したいとき,なんらかの評価値を手に入れて,検定をしたりします.このとき,「AはBよりよい」,「AはCよりよい」という二つの結論を導くのであれば問題はないのですが,この二つの結論から,だから「Aがよりよい」という結論を導こうとすると,気をつけなければならない点があります.おおざっぱな説明としては,それぞれの検定を有意水準5%で行った場合に「AはBよりよい」が間違っていることが5%の確率であり,「AはCよりよい」が間違っていることも5%の確率であり,どちらかの結論が間違っていると,合わせた結論が間違っていることになるので,結論が間違っている確率が10%(1-0.95^2=0.1)になってしまう,これが気をつけなければならない点です.

 これに似たような話として,アンケート等で複数の質問をしたときの結果の検定があります.これが多項目検定です.

 自分が作ったシステムXと既存のシステムYを使ってもらって,五つの質問に答えてもらったときに,五つの質問それぞれについて,XとYのどちらの方が肯定的に思われているかを有意水準5%で検定したとします.このときに,この五つの結論を用いて一つの結論を導こうとすると,先に記したことと同じ問題が発生します.つまりそれぞれの結論が間違っている可能性が5%あるので,そこから導いた結論は23%(1-0.95^5)もの確率で間違っている可能性があるのです.なので,このような検定を行う時には,それぞれの検定での有意水準をコントロールする必要があります.もっとも簡単な方法が有意水準を項目数で割る方法です.つまりこの場合は1%にします.すると結論が間違っている確率は5%(1-0.99^5)になります.

 すると50個の質問をしたら,それぞれの検定は有意水準0.1%で検定するの? まじ? ってことになります.そう,そうなんです.50個の質問から一つの結論を導く場合はそういうことになります.こんな検定,ほとんど有意差が出ません.ということで,一つの結論を導いて,それを検定という手法で正当性を主張する場合は,無駄に質問を多くするべきではないということになります.ちなみに「無駄に」と書いたのは,聞くべきことを省略するなということですw

 ここで,五つの質問から五つの結論を導く場合も,結論が間違っている可能性を5%にしたい場合は,それぞれの検定の有意水準を1%にしなければならないのでしょうか? いいえ,必要ありません.それぞれの検定の有意水準は5%とします.

 間違っている可能性が5%ある結論を五つ出して報告した場合,どれかが間違っている可能性はやはり23%になります.たくさんの項目を聞く調査を行えば,その報告書のどこかに間違いがある可能性は増えていきます.これを根拠となり,このような場合も有意水準をコントロールしなければならないという主張が多いです.しかし,一つ一つの結論に間違いがある可能性は変化しないはずです.これが有意水準をコントロールしないでよいことの理由です.

 これは,独立した結論を導くための質問をした場合の話です.関係が高い質問をいくつかして,それらをまとめて結論を出す場合,やはり間違いの可能性が上がっていくため,有意水準をコントロールする必要があることを忘れないでください.

あー 検定力から考察したことないので,そのうちしなくちゃ

この記事が気に入ったらサポートをしてみませんか?