#4 マチコ先生とニャー助のデータサイエンス「統計学の基本ってなにニャ？　その１：代表値」編: Rバージョン　全20講

米国大学教授が教える「ニャー助とマチコ先生で学ぶAI・データサイエンス」

2023年5月2日 11:10

某猫カフェにて

マチコ先生: ねえ、ニャー助、昨日の夕食はどんなものを食べたの？

ニャー助: 昨日はお寿司を食べたんだニャ！でも、いろんな種類のネタがあって、どれがいいか迷っちゃったニャ…

マチコ先生: そっかー、好きなものは選ぶのが難しいよね。でも、統計学の基本を使えば、ニャー助がどんなネタを好むかを予測することができるかもしれないよ。

ニャー助: えっ、本当にニャ？どうやってニャ？

マチコ先生: まず、これまで食べたお寿司のネタとその回数を記録して、平均値を計算すれば、ニャー助がどのネタをよく選ぶかがわかるの。それに、分散や標準偏差を使って、ニャー助の選び方のばらつきも調べることができるわよ。

ニャー助: なるほどニャ！それなら、自分の好みをもっとよく理解できるニャね。

マチコ先生: そうだね。さらに、他の人との違いや、好みが似ている人を見つけることもできるよ。相関関係や信頼区間などの概念も役立つよ。

ニャー助: おお、それは面白そうだニャ！マチコ先生、統計学の基本についてもっと教えてほしいニャ！

マチコ先生: もちろん！それじゃあ、今日は一緒に統計学の基本を学んでいこうね！

量的データと質的データって何ニャ？

マチコ先生: まず統計学の基本について学ぼう。統計って、何だと思う？

ニャー助: うーん、データを分析するための方法かなニャ？

マチコ先生: その通り！統計学はデータを解析し、ビジネスや研究で役立つ情報を得るために使われるよ。さあ、まずはデータの種類から学ぼう。

ニャー助: データの種類って何があるのニャ？

マチコ先生: 主に、量的データと質的データの2つがあるよ。量的データは数値で表されるデータで、質的データはカテゴリや属性で表現されるデータだね。

ニャー助: なるほどニャ。でも・・量的データと質的データって分けると何がいいことあるニャ？

マチコ先生: いい質問だね、ニャー助。量的データと質的データを分けることで、データの特性を理解しやすくなるよ。それぞれ適切な分析手法を選ぶことができ、より正確な結果が得られるようになるんだ。

ニャー助: なるほどニャ！どんな分析手法があるのかにゃ？

マチコ先生: たとえば、量的データでは相関関係や回帰分析、標準偏差や分散などを計算することができる。一方、質的データではクロス集計やカイ二乗検定、クラスタリングなどの手法が使えるよ。データの種類に応じて、適切な手法を選ぶことが大切なんだよ。

ニャー助: ふむふむ、データの種類によって適切な手法が違うんだニャ。勉強になるニャ！

代表値って・・なにニャ？

マチコ先生: そうだね、ニャー助。今日は統計学の基本だけど、まずは代表値から始めようね。平均、中央値、最頻値の3つがあるんだ。Rで計算してみようか？

ニャー助: いいニャ！どうやって計算するのニャ？

マチコ先生: こんな感じで、架空の売上データを使って計算できるよ。

sales_data <- c(100, 200, 300, 400, 500, 100, 200, 300, 400, 500)
mean(sales_data)
median(sales_data)
table_data <- table(sales_data)
sales_data[which.max(table_data)]

ニャー助: おお、できたニャ！でも、どうして平均、中央値、最頻値がそれぞれ大事な概念なんにゃ？ビジネスの実例を挙げて、それぞれ教えてほしいニャ。まずは平均から。

マチコ先生: いい質問だね、ニャー助！それぞれの代表値がどのようにビジネスで使われるか、実例を挙げて説明しようね。

平均値って何ニャ？

マチコ先生: 平均は、全体のデータを均等に分けたときの値で、データの中心を表す指標だね。例えば、ある会社の従業員の平均年収を計算することで、その会社の給与水準を把握することができるよ。

ニャー助：なるほど。じゃあ使う際の注意点は何かにゃ？

マチコ先生: いい質問だね！実例を交えて注意点を説明しようね。平均は、外れ値の影響を受けやすいことに注意が必要だよ。例えば、ある会社でほとんどの従業員が年収300万円～500万円だけど、CEOが年収1億円だとすると、平均年収は外れ値に引き上げられてしまうね。

ニャー助：なるほどニャ。分かってきた気がするニャ。じゃあ、中央値って何ニャろか？

中央値って何ニャ？

マチコ先生: 中央値は、データを小さい順に並べたときに真ん中に来る値だよ。データに外れ値がある場合でも、中央値は外れ値の影響を受けにくいんだ。例えば、不動産会社が家の価格の中央値を計算することで、その地域の家の価格の傾向を把握できるよ。

ニャー助: なるほどニャ、じゃあ中央値の使用上の注意ってあるかニャ？

マチコ先生: 中央値は外れ値の影響を受けにくいけど、データの形状やばらつきに関する情報を持っていないことが注意点だよ。例えば、家の価格の中央値が500万円だとしても、その地域には価格差が大きい家がたくさんあるかもしれないね。

最頻値って何かニャ？

ニャー助: へぇ、最後に最頻値はどうだニャ？

マチコ先生: 最頻値は、データの中で最も頻繁に出現する値だよ。例えば、小売店が売れ筋商品のカテゴリを調べるとき、最頻値を使って最も売れる商品カテゴリを特定できるね。

ニャー助: なるほどニャ！じゃあ最頻値は何に気をつければいいニャ？

マチコ先生: 最頻値はカテゴリデータに適しているけれど、連続データにはあまり適していないことが注意点だよ。例えば、売上データを分析するとき、最頻値は一番売れている商品を特定できるけど、売上の分布全体を把握するのには不十分だね。

ニャー助: わかったニャ！それぞれの代表値の注意点も理解できたニャ。

代表値を実践で使う場合の注意点はなにニャ？

ニャー助：じゃあ、実践では、この３つをどの順番で、どう見たらいいにゃ？

マチコ先生: 良い質問だね、ニャー助！実践では、まずは全体のデータをざっと見て、データの形状やばらつきを把握することが大事だよ。その上で、各代表値を使ってデータを詳しく分析していくのが良い方法だね。私のオススメの手順はこうだよ。

まず、データをヒストグラムや箱ひげ図で可視化して、分布の形状やばらつきを把握しよう。

次に、平均値を計算して、データの中心を求める。外れ値があるかどうか注意してね。

さらに、もし外れ値があれば、中央値を計算して、外れ値の影響を受けにくい中心を求めよう。

最後に、最頻値を求めて、特に注目すべき値やカテゴリがあるかを確認しよう。

この手順で、データの特徴を理解しやすくなるよ。ビジネス現場でのデータ分析では、状況に応じて適切な代表値を選んで使うことが大事だね。

ニャー助: なるほどニャ！データを理解するためには、代表値を上手く使い分けることが大事なんだニャ。これでデータ分析ができるようになりそうニャ！

マチコ先生:まだよ、ニャー助。データサイエンティストは実践してこそ、だよ。

Rで実践！代表値に親しもうニャ！

ニャー助: マチコ先生のぐうの音が出ない正論来たニャ～。じゃあ、データの解釈を代表値を使って実践してみたいニャー。

マチコ先生: もちろん、ニャー助！フェイクデータを使って、代表値の解釈の実例を示すね。例えば、10人の営業マンがいる会社の1か月の売上データを分析してみよう。以下がそのフェイクデータだよ。

売上（千円）: 300, 400, 500, 450, 320, 600, 530, 470, 480, 2000

Rコードを使って、先程の売上データを分析してみようね。

まず、Rを使ってデータを読み込み、基本的な統計量を計算する方法を示すね。

# 売上データをベクターに入れる
sales <- c(300, 400, 500, 450, 320, 600, 530, 470, 480, 2000)

# 平均値を計算
mean_sales <- mean(sales)
print(paste("平均値:", mean_sales))

# 中央値を計算
median_sales <- median(sales)
print(paste("中央値:", median_sales))

# 最頻値を求めるためにtable関数とwhich.max関数を使う
mode_sales <- as.numeric(names(which.max(table(sales))))
print(paste("最頻値:", mode_sales))

次に、ヒストグラムを描画する方法を示すね。

# ヒストグラムを描画
hist(sales, main="売上データのヒストグラム", xlab="売上（千円）", col="lightblue", border="black")

このRコードを実行すれば、売上データの平均値、中央値、最頻値を求めることができるし、ヒストグラムも描画できるよ。

ニャー助: すごいニャ！Rコードを使ってデータ分析ができるようになったニャ！でも結果はどう解釈するニャ？

マチコ先生: そうそう結果の解釈は一番大事だよね、ニャー助。一緒に解釈してみよう。

まず、データをヒストグラムで可視化してみると、2000の売上が他の売上と比べて大きく外れていることがわかる。

平均値を計算すると、売上の合計（6050）を人数（10）で割って、平均売上は605千円になる。ただし、外れ値（2000）があることに注意が必要だね。
中央値を計算すると、売上データを小さい順に並べたとき（300, 320, 400, 450, 470, 480, 500, 530, 600, 2000）に、真ん中の値（470と480）の平均を取って、中央値は475千円になる。これは、外れ値の影響を受けていない中心値だね。
最頻値を求めると、売上データには重複している値がないため、最頻値は特定できない。この場合、最頻値はデータ分析にあまり役立たないね。

この例からわかるように、外れ値がある場合は、平均値よりも中央値がデータの中心をより適切に表していることが多いよ。また、最頻値はカテゴリデータに適していることを思い出してね。

ニャー助: なるほどニャ！実際のデータを使って説明してくれると、ずっと理解しやすいニャ！これで、ビジネスデータを分析するときに役立つ知識が身についた気がするニャ。ありがとうニャ！

まだまだ終わらないニャ！統計の基本は～次回の予告

マチコ: さて、今日は統計学の基本について色々学んだね。次回はヒストグラム、相対度数、四分位数、パーセンタイル、箱ひげ図、分散、標準偏差、相関関係、標本分布などについて学びましょうね。

ニャー助: うん、今日はいろいろ勉強になったニャ。次回も楽しみだニャ！

マチコ: そうだね、次回も楽しい内容がたくさんあるよ。それでは、お茶でも飲んで一息ついて、今日の復習をしよっか。

ニャー助: いいニャ！マチコ先生、今日はありがとうニャ！かなり疲れたから寝るニャ・・・（夢の世界へニャニャニャ）

マチコ: どういたしまして、ニャー助。あ、寝てるわね・・。まったく、ネコはよく寝るよね。。。じゃあ次回も一緒に頑張りましょうね！

◆ツイッターでマチコ先生とニャー助が学ぶデータサイエンスの最新記事のお知らせをしています。

https://twitter.com/ProfX_US-

この記事が気に入ったらサポートをしてみませんか？