見出し画像

何も考えないで平均値を使うな!

はじめに

「統計的処理において平均値が役に立たないことがある

これを知らない人をよく見かけます。

自分はいわゆる理系大学生で日々研究に従事しています。研究では、実験データを統計的に処理する場面が現れるのですが、そういったときに「とりあえず平均値取ればいいか」と何も考えずに平均値をとる人が多い……。

今回はどんなときに平均値を取っていいのかを簡単に紹介します。詳しく知りたい方は、あとで紹介する統計学の本を読んでください。

また、今回は統計学の本を参考にして執筆していますが、自分は統計学の専門家ではないので間違った解釈をしている場合があります。その場合は指摘してもらえるとありがたいです。

等間隔じゃない尺度のときに平均値を使うな!

尺度には色々な種類があります。スタンレー・スミス・スティーブンズ(Stanley Smith Stevens)は、「名義尺度」、「順序尺度」、「間隔尺度」、「比例尺度」の4種類に分けることを提案しました。もちろんこれらは数字で表されますが、その数字の間隔が等しくない尺度やそもそも間隔に意味がない尺度があります。等間隔でない・間隔に意味がない尺度のときに平均値を使ってはいけません!
それでは、それぞれの尺度を紹介していきます。

名義尺度(平均値×
区別するために使われる尺度。
例としては性別があります。「1: 男性、2: 女性、3:その他」みたいな。
このとき1と2はただの名前として使われています。「男と女の間隔」みたいなものは存在しません。よって、平均値を使ってはいけません。
例:性別、郵便番号、学籍番号

順序尺度(平均値×)
大小に意味があるが、間隔に意味がない尺度。例えば順位(1位、2位、3位)。
クラスのテストで「1位 100点、2位 98点、3位 97点」だったとします。このとき1位と2位の間隔は2点、一方2位と3位の間隔は1点です。つまり、等間隔ではありません。このように等間隔でないので、平均値を使ってはいけません。
例:順位、段級位制(柔道初段、漢検4級など)、「1. 好き / 2. ふつう / 3. 嫌い」

間隔尺度(平均値
間隔に意味があるが、比率に意味がない尺度。例えばテストの点数。
あるテストでAさんが30点で、Bさんが10点だったとする。このとき、Aさんの点数はBさんの点数より20点高いということが言えます。
ちなみに、比率に意味がないので、このとき「Aさんの点数はBさんの点数の3倍である」と言えません。
例:摂氏温度、テストの点数

比例尺度(平均値○)
0が原点で比率に意味がある尺度。例えば体重。
体重50kgのAさんと、体重100kgのBさんがいるとします。このとき、「BさんはAさんより50kg重い」ということが言えます。また、間隔尺度と違って比率に意味があるので、「Bさんの体重は、Aさんの体重の2倍」ということが言えます。
例:身長、体重、速度

間隔尺度と比率尺度の見分けるとき、「0」に「存在しない」という意味があるかどうかを考えます。間隔尺度は「0」には特に意味がなく、比率尺度は「0」に「存在しない」という意味になります。例えば気温0℃は「気温が存在しない」わけではなく0という値を取っただけです。つまり、気温は間隔尺度です。一方、「家にある本が0冊」というのはつまり「家に本がない」ということを表します。つまり、「0」に意味があるので本の冊数は比例尺度になります。

おまけ:リッカード尺度(平均値△)

リッカード尺度はアンケートでよく使われる主観評価の方法です。上の図が例になります。リッカード尺度のアンケート結果がいくつも集まった場合、それらのデータの平均値を取っていいかどうかについて色々議論があります。というのは、これらが順序尺度なのか間隔尺度なのかが明確でないからです。

「このとき1~2と2~3の間隔が一緒じゃないから順序尺度だ」という意見があれば、「数字が振ってあれば等間隔とみなしていいんじゃないか?」という意見もあります。
あくまで個人の意見ですが、「等間隔が保証できない・等間隔である自信がない場合は、順序尺度とみなして平均値を使わない」が良い気がします。

正規分布じゃないときに平均値を使うな!

正規分布とは?

上の図のヒストグラムを見ると、「釣り鐘型」と呼ばれる峰が1つだけの左右対称な山のようになっています。これを正規分布と呼びます。

上の図のように綺麗な正規分布じゃなくても、形がだいたい同じなら正規分布とみなしていいことがあります。集めたデータが正規分布になるかどうかを判定する方法として、「①ヒストグラムの見た目で判定してしまう」、「②計算して正規性の検定を行う」などがあります。

正規分布と平均値

平均値は正規分布になるデータに対して有効です。逆に正規分布にならないデータでの平均値は役立たずであり、誤解のもとです。

一般的に、「平均=真ん中」というイメージがあります。
「平均点が50点だったから、40点の俺は真ん中より下なのか」
「20代の平均体重65kgなのか!70kgの俺は太ってるのかな?」
なんて考える人も多くいます。

しかし、「平均=真ん中」は正規分布じゃないデータのとき保証されません。

例えば、正規分布であるヒストグラムAと正規分布じゃないヒストグラムBを用意しました。ヒストグラムAのとき、平均値がちょうど真ん中の値になります(5点以上が18人、5点以下も18人)。
一方、ヒストグラムBのとき、平均点以上が10人で平均点以下が26人になります。なんと全体の2/3以上が平均点以下になってしまいました。このように正規分布じゃないときは、大抵平均値が真ん中の値になってくれないのです。

ヒストグラムBのように正規分布じゃないのに平均値を出すと、「平均点が5点だから、クラスの半分の人たちは5点以上だったのか」と勘違いしてしまいます。正規分布じゃないときは、平均値を使うのは控えましょう。

平均値ダメなときは、中央値を使おう!

「じゃあ、平均値使えないときは何を使えばいいの?」
そんなときは中央値を使いましょう。

中央値とは、「真ん中の値」のことです。例えば複数人で点数を競うゲームをしたとします。5人グループだったら順位が3番目の点数が中央値になります。偶数の6人グループだったら、順位が3番目の点数と4番目の点数を足して2で割った点数が中央値になります。

この中央値は「外れ値(異常値)」に大きく左右されないという優れた特性を持っています。今回紹介した平均値が使えない場面では、中央値を用いると良いでしょう。(ただし名義尺度は除く)

まとめ

今回は平均値を使ってはいけない場面について紹介しました。厳密な定義や数式を使わずに紹介しているので、もっと詳しく知りたい方は統計学の本やサイトを読んでください。最後の項目で、今回の記事を書くにあたり参考にした本をまとめておいたので是非とも参考にしてください。

参考資料

マンガでわかる統計学―素朴な疑問からゆるーく解説(サイエンス・アイ新書)

BellCurve 統計WEB 「1-4. 変数の尺度|統計学の時間」

この記事が気に入ったらサポートをしてみませんか?