統計的有意に依存することの危険性

2022年3月29日 11:31

1. はじめに

研究をしていると共同研究をすることが多々ある。共同研究の良いところは作業を分担できること。一方、やり方を間違えると非効率的で自分の思った通りに研究が進まないということもある。

なので、共同研究するときは共同研究する相手が自分にない強みを持っていて、その分野をしっかり任せることができるか否かが大切なんだろうなと思う。

逆に、自分より特定の分野の知識が少ないのに、相手が主導権を握ろうとするともやもやする。とりわけ、統計的知識の不足している人が、ソフトウェアを持っているからというだけで分析の主導権を握ってしまうのは怖いな～と思ってしまう（もちろん、自分もまだまだ統計手法のすべてを知っているわけではないし、自分よりも詳しい人はたくさんいるのだけれど）。

統計分析は日々進化している。なので、最近の論文はとても複雑な分析を行っているし、その分析を細かいところまで理解するのは非常に難しい。常に知識をアップデートする必要があるのである。

そんなわけで、今は時間を見つけてちょくちょく以下の書籍を読んでいる。

タイトルにある通り、これは統計のセンスを身につけるための本。統計分析の基本を解説しているものの、「要するにどういうことを意味しているの」というのをより詳しく説明している本なのでとても勉強になる。

一方、そもそも有意性の検定は用いるのが危険なのでは、ということも書いてあって、統計の書籍の中でその主張をしてよいのかと思ってしまった。

この点をもう少し説明しておこう。

2．有意差検定について

有意性については以前にも記事を書いたので参照してほしい。

分析結果に有意な差があるかは、研究者にとって重要である。なぜなら、有意性検定によって自分の立てた仮説が支持されたのか、棄却されたのかをチェックするからである。

統計分析をしたことのあるなら、分析結果に有意差が確認できると分析がうまくいった、仮説が検証できた、と喜んだ経験を持つ人も多いだろう。

ただし、この書籍の著者Gorard氏はそんな我々に待ったをかける。

その一つの理由として、無作為サンプリングという仮定が満たされていないことをあげている。

統計分析をする際には必ずデータを集める。例えば、日本の高校3年生の英語の学力に関するデータと1日の英語の勉強時間のデータを集めるとしよう。

この場合、日本の高校3年生を母集団と呼ぶ。

しかし、日本の高校3年生全員にアンケートを取り、英語に関する学力テストを実施してデータをとるのは現実的に難しい。データ回収に関する様々なコストが高くなるからである。

そこで、一部の高校3年生にアンケートや学力テストを実施する、という方法がとられる。すなわち、母集団からサンプル（標本）を抽出しようということになる。そして、研究で用いられる統計分析はあくまで標本に基づいた分析を行っているのである。

3．ランダムサンプリングが満たされているか？

さて、統計分析を行うためにはデータを集めなければならない、ただし、そのデータはあくまで母集団の一部を抽出したサンプルであることを説明した。

一方、このサンプルの抽出は適当に行ってはいけない。統計分析の結果を妥当なものとするためには、ランダムサンプリングを行う必要がある。

ランダムサンプリングは日本語で無作為抽出という。例えば、高校生3年生の上記のデータを集める際、開成高校の3年生だけからデータを集めてしまうと、随分と学力テストの成績が高いサンプルを分析することになるだろう。すなわち、ランダムサンプリングをしないと偏ったサンプルを集めてしまうことになり、分析結果も偏ったものになってしまうのである。

一方、ランダムサンプリングを実際に行うことは極めて難しい。高校生3年生のデータをランダムサンプリングする場合を考えてほしい。ランダムサンプリングをするためには、まず日本の全高校名が記載されたリストを作成し、そこから調査対象となる高校を無作為に選び、選ばれた高校の3年生を対象に調査票を配布する、ということをする必要があるだろう。

しかし、実際の研究でここまでしていることは少ない。むしろ、研究者がコンタクトを取りやすい学校を選び、そこの校長先生等にお願いして調査を依頼する、という方が一般的だろう。

これはランダムサンプリングではない。

自分の場合は企業を対象に研究をしている。企業をランダムサンプリングして分析するなど、はっきり言って不可能である。日本にあるすべての企業からランダムにサンプルを集めることなどできないし、国際比較となると世界中の企業からランダムサンプリングを行わなければならない。残念ながらそれは無理な話である。

4．おわりに

結局、集めているデータが偏っている以上、どんな分析を行ったとしても出てくる結果は偏った結果になってしまっている。

Garbage in, Garbage out とはまさにこれで、我々研究者はごみを排出して喜んでいるだけなのかもしれない。

ここは分析をする側として常に意識しておく必要があるだろう。とりわけ、統計分析をして有意な結果が得られたからといって、それはあくまで自分のサンプルにおける結果に過ぎないことは肝に銘じておく必要があるだろう。

大胆な一般化をしてしまうことは、データや結果の誤解釈につながってしまうだろう。

この記事が気に入ったらサポートをしてみませんか？