プログラム・コードを実行するためのcsvファイルのデータ形式・サンプルデータ(MATLAB, R, Python)

noteにおいて回帰分析・クラス分類・変数選択・見える化(可視化)・クラスタリング・データ領域推定のためのプログラムを公開しています。公開しているプログラムについてはこちらにまとめてあります。

それぞれのプログラムを実行するときに、データセットを読み込む必要があり、csvファイルで準備します。ここでは、そのcsvファイルの形式をまとめておきます。なおMATLAB, R, Pythonともの同じ形式です。

回帰分析・変数選択

回帰分析のときに必要なのは、
■モデル構築用データのcsvファイル [data.csv]
■予測用データ1のcsvファイル [data_prediction1.csv]
■予測用データ2のcsvファイル [data_prediction2.csv]

の3つです。

変数選択のときに必要なのは
■モデル構築用データのcsvファイル [data.csv]
のみです。

各csvファイルの形式を説明します。サンプルデータをこちらに置きます。合わせてご確認ください。まずはサンプルデータを使って実行できることを確認するとよいと思います。

■モデル構築用データのcsvファイル [data.csv]
下図のように、一番上が変数の名前、一番左がサンプルの名前です。一番左の変数を目的変数Y、その右から説明変数Xとしてください。サンプルの名前と変数の名前は自由に決めて構いませんが、すべて異なるものにしてください。


■予測用データ1のcsvファイル [data_prediction1.csv]
予測用データ1は目的変数Yの値が分かっている予測用データです。data.csvと説明変数の種類および個数を揃える必要があります。準備できない場合はdata.csvと同じもので、ファイルの名前をdata_prediction1.csvとしてください。下図のように、一番上が変数の名前、一番左がサンプルの名前です。一番左の変数を目的変数Y、その右から説明変数Xとしてください。サンプルの名前は自由に決めて構いませんが、すべて異なるものにしてください。


■予測用データ2のcsvファイル [data_prediction2.csv]
予測用データ2は目的変数Yの値が分かっていない予測用データです。data.csvと説明変数の種類および個数を揃える必要があります。準備できない場合はdata.csvの説明変数だけ取り出したもの(目的変数Yを削除したもの)で名前をdata_prediction2.csvとしてください。下図のように、一番上が変数の名前、一番左がサンプルの名前です。サンプルの名前は自由に決めて構いませんが、すべて異なるものにしてください。
回帰分析の結果として、このデータセットの目的変数Yの推定値がPredictedY2.csvというファイルに出力されます。


クラス分類

クラス分類のときに必要なのは、
■モデル構築用データのcsvファイル [data.csv]
■予測用データ1のcsvファイル [data_prediction1.csv]
■予測用データ2のcsvファイル [data_prediction2.csv]

の3つです。

各csvファイルの形式を説明します。SVMなどの2クラス分類用のサンプルデータはこちらに、多クラス分類用のサンプルデータはこちらに置きます。多クラス分類用のは有名なEdgar Anderson のあやめのデータです。合わせてご確認ください。まずはサンプルデータを使って実行できることを確認するとよいと思います。

■モデル構築用データのcsvファイル [data.csv]
下図のように、一番上が変数の名前、一番左がサンプルの名前です。一番左の変数を目的変数Y、その右から説明変数Xとしてください。サンプルの名前と変数の名前は自由に決めて構いませんが、すべて異なるものにしてください。Yは文字列でもOKです。


■予測用データ1のcsvファイル [data_prediction1.csv]
予測用データ1は目的変数Yの値が分かっている予測用データです。data.csvと説明変数の種類および個数を揃える必要があります。準備できない場合はdata.csvと同じもので、ファイルの名前をdata_prediction1.csvとしてください。下図のように、一番上が変数の名前、一番左がサンプルの名前です。一番左の変数を目的変数Y、その右から説明変数Xとしてください。サンプルの名前は自由に決めて構いませんが、すべて異なるものにしてください。


■予測用データ2のcsvファイル [data_prediction2.csv]

予測用データ2は目的変数Yの値が分かっていない予測用データです。data.csvと説明変数の種類および個数を揃える必要があります。準備できない場合はdata.csvの説明変数だけ取り出したもの(目的変数Yを削除したもの)で名前をdata_prediction2.csvとしてください。下図のように、一番上が変数の名前、一番左がサンプルの名前です。サンプルの名前は自由に決めて構いませんが、すべて異なるものにしてください。

クラス分類の結果として、このデータセットの目的変数Yの推定値がPredictedY2.csvというファイルに出力されます。


見える化(可視化)・クラスタリング・データ領域推定

見える化(可視化)・クラスタリング・データ領域推定のときに必要なのは、

■モデル構築用データのcsvファイル [data.csv]

です。サンプルデータをこちらに置きます。各国の世代毎の貯蓄データです。合わせてご確認ください。まずはサンプルデータを使って実行できることを確認するとよいと思います。

■モデル構築用データのcsvファイル [data.csv]
下図のように、一番上が変数の名前、一番左がサンプルの名前です。サンプルの名前と変数の名前は自由に決めて構いませんが、すべて異なるものにしてください。

この記事を書いた人

ブログ:http://univprof.com/
twitter:https://twitter.com/univprofblog1

ぜひフォローをお願い致します。

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

univprof

コメントを投稿するには、 ログイン または 会員登録 をする必要があります。