見出し画像

たくさんの記述子・特徴量・説明変数・入力変数の前処理・事前検討をする万能な方法はこれだ!

こんにちは!大学教員ブロガーのねこしです。http://univprof.com/

データセットがあって、たくさんの記述子 (説明変数・入力変数・特徴量) の準備が終わった状況を考えます。回帰分析やクラス分類を行うときは、さらに目的変数もありますね。

このとき、皆さんはどのように記述子の前処理をしますか?特に、どのように検討して記述子の数を減らしますか?記述子を選択しますか?

もちろん、事前には記述子の削減をせず、すべての記述子をその後の解析に用いる、という方もいらっしゃるかもしれません。ただ、事前に記述子の数を減らすことで、データセットがコンパクトになって解析がやりやすくなったり、モデルがシンプルになって汎用性が向上したり、他人に解析結果を説明しやすくなったりするのも事実です。

一般的には、標準偏差の小さい記述子を削除したり、相関係数の絶対値が大きい記述子の組の一方を削除したりします。

しかし、標準偏差の小さい記述子であるからといって、情報量も小さいとは限りません。このような記述子を安易に削除するのは危険です。詳細はこちら http://univprof.com/archives/16-02-21-2864891.html に記載しましたのでご覧ください。

また、相関係数で削除するときも、”相関係数の絶対値が大きい”って具体的にいくつ以上? といったように、しきい値を決めなければなりません。また” 記述子の組の一方”ってどちらを削除すればよいの?って話にもなります。さらに、相関係数では変数間の線形的な(直線的な)相関関係しか考慮されません。たとえば2つの記述子の間に指数関数的な関係があった場合、相関係数の絶対値は小さくなってしまいます。

このように、標準偏差の小さい記述子を削除したり、相関係数の絶対値が大きい記述子の組の一方を削除したりする方法には問題があるわけです。

そこで、以上の問題をすべて解決できる、記述子の数を事前に減らす方法を開発しました。この方法は、回帰分析もしくはクラス分類を行うことを前提としています。そして、記述子の数を減らしたからといって、回帰分析モデルやクラス分類モデルの性能が低下することは基本的にありません。

具体的な方法は有料とさせていただきます。人気が出てきたら値段を上げてみるかもしれません。

今回の方法については、プログラミングしやすいように、丁寧に順を追って説明しましたので、記事を読んで自分で実装することも簡単です。

回帰分析やクラス分類の前に、適切に記述子の数を減らしたい方はぜひご購入ください!

ここから先は

2,599字

¥ 380

この記事が気に入ったらサポートをしてみませんか?