[プログラム・コード公開] コピペだけで実用的かつ実践的なAdaptive Boosting(AdaBoost) (R言語)

2016年7月7日 00:34

仕事や研究において、アンサンブル学習とクラス分類を組み合わせたAdaptive Boosting(AdaBoost)をする方もいらっしゃいます。AdaBoostの実用的かつ実践的な方法はこちらに書きました。

しかし、AdaBoostによる回帰分析のやり方はわかっても、実際にAdaBoostができるようになるわけではありません。ネットや本でAdaBoostのプログラミングを説明しているものはありますが、データの読み込み方とか結果の出し方とか、他にも調べてやらなくちゃいけないこと、多いんですよね・・・。手間と時間がかかります。

そこでコピペするだけでAdaBoostによるクラス分類を実行可能なプログラムを作りました。クラス分類手法は決定木です。下に示す形式のデータ(data.csv, data_prediction1.csv, data_prediction2.csv)さえ準備すれば、R言語でAdaBoostによるクラス分類ができます。

●必要なもの

・モデル構築用データのcsvファイル [data.csv]

下図のように、一番上が変数の名前、一番左がサンプルの名前です。一番左の変数が目的変数Yでありその右が説明変数Xです。サンプルの名前と変数の名前はすべて異なるものにしてください。Yは文字列でもOKです。

・予測用データ1のcsvファイル [data_prediction1.csv]

予測用データ1は目的変数Yの値が分かっている予測用データです。data.csvと説明変数の種類および個数を揃える必要があります。準備できない場合はdata.csvと同じもので名前をdata_prediction1.csvとしてください。下図のように、一番上が変数の名前、一番左がサンプルの名前です。一番左の変数が目的変数Yでありその右が説明変数Xです。サンプルの名前はすべて異なるものにしてください。

・予測用データ2のcsvファイル [data_prediction2.csv]

予測用データ2は目的変数Yの値が分かっていない予測用データです。data.csvと説明変数の種類および個数を揃える必要があります。準備できない場合はdata.csvの説明変数だけ取り出したもので名前をdata_prediction2.csvとしてください。下図のように、一番上が変数の名前、一番左がサンプルの名前です。サンプルの名前はすべて異なるものにしてください。

実行結果を下に示します。data_prediction2.csvの目的変数の予測値がPredictedY2.csvというファイルに、サンプルごとに各クラスに判定された確率がPredictedY2_Probability.csvというファイルに保存されます。サンプルごとにPredictedY2_Probability.csvの値が一番大きいクラスが、PredictedY2.csvに保存されています。

コードの一部はこちらになります。

R言語で必要なものは以下の通りです。
RStudio [こちらではVersion 0.99.879です]

もちろんAdaBoostからスタートしてさらにプログラミングを進めたいと考えている方にもぜひ利用していただければと思います。

R言語のプログラムは有料コンテンツとします。ただ購入すればこちらに記載したAdaBoostをそのまますぐに実行できます。

こちらからプログラムのzipファイル自体はダウンロードできます。購入していただくと解凍のためのパスワードがありますのでそちらをご利用ください。

ここから先は

102字

¥ 1,000

ログイン

この記事が気に入ったらサポートをしてみませんか？