不均衡データ

顧客リスト2000あって、それにメールを送ったとする。
そこから申込が10件あったとする。レートは、10/2000=0.5%。

で、実は、顧客データが2000件は、属性がいろいろわかっていて。
性別とか年齢とか、年収とか。

で、このデータを機械学習させてみたとする。
で、いろんな属性を与えてやったら、「買う」「買わない」のどちらかに振り分けてくれる、そういう振り分け機ができた。

で試してみたら、99.5%の正答率が出た。
おぉ、スゴイじゃっん!

・・・。

えーっと。
もともとのレートが0.5%なので、基本的に全部「買わない」って回答すれば、
99.5%の正答率になりますんで、わざわざ機械学習させる必要ありませんケド・・・。


この記事が気に入ったらサポートをしてみませんか?