Kaggle/American Express - Default Prediction
時間ができたのでdeadlineギリギリにちょっとだけ参加
概要
顧客ごとのクレジットカードのデフォルト確率を予測するタスク。タスク設定としては非常にわかりやすい
データ
train_data.csv: 訓練用学習データ
train_labels.csv: 訓練用正解データ
test_data.csv
sample_submission.csv
データ形式も普通。
ただしサイズがめちゃでかいw
train_data.csvが16.39 GB、test_data.csvが33.82 GB
これを一発で処理するメモリは個人ではなかなか。。。AWSとかで借りても高そう。あと学習にむっちゃ時間かかりそう。
ここが今回のコンペの特徴。
さらに実データなのか学習データの項目名がマスキングされてる。種類くらいはわかるけど、具体的になにかはわからない。項目名から素性の取捨選択はできないみたい。全部で190項目
D_* = 滞納に関する項目
S_* = 支出に関する項目
P_* = 支払いに関する項目
B_* = 収支に関する項目
R_* =危険性に関する項目
多分だけど、こんな感じ?カテゴリ変数だったり分布もバラバラだったり具体的な内容はパッと見ではわからない
提出形式
customer_ID,prediction
のcsv形式。
考察
時間ないので学習と評価を繰り返して素性の選択する暇はなし。
モデル作ってパラメータ調整するくらいで終わりそう
ディスカッション見るとデータサイズを減らして頑張って処理させる方法が主流なのかな?
そこもこだわりが止まらない沼の予感がするので、今回はオンライン学習的に少しずつデータ使って訓練していく方針でやるつもり。
参考
この記事が気に入ったらサポートをしてみませんか?