見出し画像

Kaggle/American Express - Default Prediction

#kaggle

時間ができたのでdeadlineギリギリにちょっとだけ参加

概要

In this competition, you’ll apply your machine learning skills to predict credit default. Specifically, you will leverage an industrial scale data set to build a machine learning model that challenges the current model in production. Training, validation, and testing datasets include time-series behavioral data and anonymized customer profile information. You're free to explore any technique to create the most powerful model, from creating features to using the data in a more organic way within a model.

https://www.kaggle.com/competitions/amex-default-prediction/overview/description

顧客ごとのクレジットカードのデフォルト確率を予測するタスク。タスク設定としては非常にわかりやすい

データ

  • train_data.csv: 訓練用学習データ

  • train_labels.csv: 訓練用正解データ

  • test_data.csv

  • sample_submission.csv

データ形式も普通。
ただしサイズがめちゃでかいw
train_data.csvが16.39 GB、test_data.csvが33.82 GB
これを一発で処理するメモリは個人ではなかなか。。。AWSとかで借りても高そう。あと学習にむっちゃ時間かかりそう。
ここが今回のコンペの特徴。

さらに実データなのか学習データの項目名がマスキングされてる。種類くらいはわかるけど、具体的になにかはわからない。項目名から素性の取捨選択はできないみたい。全部で190項目

  • D_* = 滞納に関する項目

  • S_* = 支出に関する項目

  • P_* = 支払いに関する項目

  • B_* = 収支に関する項目

  • R_* =危険性に関する項目

多分だけど、こんな感じ?カテゴリ変数だったり分布もバラバラだったり具体的な内容はパッと見ではわからない

提出形式

customer_ID,prediction

のcsv形式。

考察

時間ないので学習と評価を繰り返して素性の選択する暇はなし。
モデル作ってパラメータ調整するくらいで終わりそう

ディスカッション見るとデータサイズを減らして頑張って処理させる方法が主流なのかな?

そこもこだわりが止まらない沼の予感がするので、今回はオンライン学習的に少しずつデータ使って訓練していく方針でやるつもり。

参考


この記事が気に入ったらサポートをしてみませんか?