「傾向は認められるが有意性は確認できない」の意味

言葉を正確に理解するには、知識が不可欠。それがはっきりわかる例の1つが、この「傾向は認められるが有意性は確認できない」だと思います。

最近目にするのは、多くの人が関心を持っているであろう新型コロナウイルスの治療薬、塩野義製薬のゾコーバと、少し前の富士フイルムのアビガンだと思います。ゾコーバについては、「塩野義のコロナ飲み薬なぜ承認されない? 薬学の識者が語る「課題」」で説明があります。例えば「薬の効き目は微妙なところがあり、データを見ても有効性はすっきりとは示されていない。」と説明されています。

       なんとなくわかるような、わからないような・・・

となるかも知れません。

でも統計学(特に区間推定と仮説検定)がわかれば、そういうことか、と普通に理解できるようになります。データ(情報)を正しく理解するには、国語能力は前提としても、数学や統計もとても重要だ、という典型例でしょう。決して文系だから数学関係ない、ではないのです。

今回は、少しだけこの「傾向は認められるが有意性は確認できない」の意味を掘り下げてみたいと思います。


毎週発表される世論調査の結果を確認してみます。「内閣支持率」という各社調査の結果だけにフォーカスしてみても、興味深いことがわかります。

NHKの調査例を取り上げます。
2022年10月(10月11日更新) 内閣支持38%、不支持43%(NHK世論調査)

画像1

画像2

NHKは、今月8日から3日間、全国の18歳以上を対象にコンピューターで無作為に発生させた固定電話と携帯電話の番号に電話をかける「RDD」という方法で世論調査を行いました。
調査の対象となったのは、2375人で、53%にあたる1247人から回答を得ました。
岸田内閣を「支持する」と答えた人は、先月の調査より2ポイント下がって38%だったのに対し、「支持しない」と答えた人は3ポイント上がって43%でした。

これを読んで、どう思うでしょうか。不支持率が増え続け、とうとう不支持率が支持率を5ポイント超えたらしい。直接理解できるのは、まずこれですね。では、この数字をもう少し深く理解するにはどうすればよいのでしょうか?基本は疑問を持ち、その答えを探してみることだと思います。

(1) 半数より少し多い人数しか回答していない。
(2) 1247人の回答結果。こんなに少なくて世論調査と言えるのか?
(3) こんなに少ないのだから、同じ調査を別の人に対して行ったら結果は違うのでは?
(4) 同時期の調査でも、他のメディアの調査結果と値が違う。
(5) 2ポイント減、3ポイント増に意味はあるのか?差の5ポイントだけで、本当に不支持率の方が高いと言えるのか?誤差や偶然もあるのでは?
(6) 43%が不支持なら、530人~542人が不支持だと考えられるが、なぜ、例えば43,3%(540人が不支持の場合)などと小数点まで計算しないのか?

(以上の疑問すべてに答えられる人は、以下不要)


まず標本調査というものがあります。これは、すべてを調べる全数調査ではなく、できるだけ偏りがないサンプルを選んで調査し、全体の数字を推定する方法です。例えば全数を調査が原理的に無理である時(製品検査、将来も含む調査、対象の数があまりにも多い場合など)、時間・コストなどの手間が大きく調査できない時などに使われます。

当然、調査するたび、そして調査対象を選ぶたびに結果が少し変わって来ます。ただ、それでもある程度の傾向は把握できるので、広く利用されています。そして統計学が発展した過去100年で、数学的な裏付けもできるようになってきました。直感的な答えではなく、論理的に理解できるようになってきたわけです。(過去100年というのは、数学の世界ではごく最近のことです。ユークリッドなどは2000年以上前。。。)

今回の結果を理解するために必要なことは、区間推定です。

内閣支持率で考えてみましょう。結果が38%というこの結果は、点推定と呼ばれます。1つの値で支持率を推定しているためです。しかし、例えば本当は39%や37%である可能性は、差が1ポイントなので十分高いと感じると思います。40%や36%なら?差は2ポイント程度なので、まあ可能性はありそうです。しかし、+5ポイントの43%は?段々と可能性は低いと感じると思います。

これを例えば、支持率が95%の確率で入っているであろう範囲を示すことができたとします。これを区間推定と言います。例えば支持率は95%の確率で38%±3%の範囲に入っている、と。


それでは1つづ見ていきます。

(1) 半数より少し多い人数しか回答していない。
今回は58%しか回答が得られなかったとのことですが、これは事実として受け止めるしかありません。調査を行う時、誰にどのように調査を行ったかを記述することは、統計データの信頼性を確保するうえでとても重要です。

(2) 1247人の回答結果。こんなに少なくて世論調査と言えるのか?
一見少ないように見えますが、数字が記載されていることが重要です。この数字は、区間推定の幅へ影響します。(区間推定の幅は、回答数の影響を受けます。回答数が多いほど点推定の値のブレが少なくなります。1000人規模の調査では、概ね±3%程度になります)

(3) こんなに少ないのだから、同じ調査を別の人に対して行ったら結果は違うのでは?
結果は違ってくるでしょう。しかしもう一度行っても、結果は38%に比較的近くなると考えられます。(だからこそ点推定にも意味がある)

(4) 同時期の調査でも、他のメディアの調査結果と値が違う。
これは調査方法に依存します。設問が違う、回答者の選び方、回答方法が違うと結果が違ってきます。(つまり同じ時期でも調査方法が違えば比較することはできません。例えば過去記事参照)

(5) 2ポイント減、3ポイント増に意味はあるのか?差の5ポイントだけで、本当に不支持率の方が高いと言えるのか?誤差や偶然もあるのでは?
この2ポイント減は誤差(偶然の変化)の範囲内になります。一方の3ポイント増は偶然と考えるには少し無理があります(確率が低い)。

(6) 43%が不支持なら、530人~542人が不支持だと考えられるが、なぜ、例えば43,3%(540人が不支持の場合)などと小数点まで計算しないのか?
調査によっては、小数点まで記載されている場合があります。しかし、1000人規模の調査の場合、±3%程度の誤差は発生するので、小数点以下には意味がありません。このため統計的には小数点以下の桁は意味がありません。以前はほとんどの調査で少数点以下まで記載がありました。しかし最近、大手から小数点を書かなくなっているようです。


最後に「傾向は認められるが有意性は確認できない」の意味です。

  傾向は認められる=点推定では薬に効果があるように見えた
  有意性は確認できない=偶然である可能性は排除できない

となります。

薬を承認するには、その結果が偶然でないことが確認されていないと困りますね。だから有効性を確認することが重要なわけですね。


これまでの参考記事:
アビガンについて
数学・確率・統計がどのように使われているかを知ろう(2)
塩野義のゾコーバ