kaggleのチュートリアル。第3版公開しました

【更新履歴等】

・2018.10.7 第2版に更新しました。
・2019.4.13 第3版に更新しました。

---

はじめまして。カレーちゃんと申します。▶︎Twitterアカウント @currypurin ▶︎ブログ

概要説明

技術書典4という技術同人誌の即売会で「kaggleのチュートリアル」を販売し、300冊完売という結果を達成することができました。
その後、私は専業のKagglerになり日々kaggleに取り組んでいます。

2019年4月に開催される、技術書典6において更新版のkaggleのチュートリアル第3版を販売するのにあわせ、このnoteでもkaggleのチュートリアル第3版を公開します。
第3版は次のサポート ページで、コードとyoutubeでの説明動画への集約を行なっています。


Kaggleの説明

Kaggleというのは、1年をとおして何らかの機会学習のコンペが開かれているサイトであり、世界中のデータサイエンティストが挑戦しています。

今流行りの機械学習に入門するのであれば、Kaggleから入門するのか最適だと思っているのですが、Kaggleのサイトは英語であり、日本人にはなかなか初めの一歩を踏み出すのがむずかしいです。

そこで、まずは英語がわからなくてもKaggleのチュートリアルコンペであるタイタニックの乗船者の生死を予測するというコンペに取り組むのが1番と考え、タイタニックコンペをわかりやすく解説するのがメインの本を作成しました。

このノートでは、有料ページで上記の本のpdfがダウンロード可能です。
また、今後もこのpdfの更新を行う予定です。

第3版の目次

第1部
 第1章 Kaggleについて
 第2章 コンペのページの翻訳など
 第3章 まずは、サブミットしてみる
第2部
 第4章 タイタニックデータの概要
 第5章 LightGBMでのタイタニック
付録
 A pandas-profilingでのEDA
 B LightGBMについての補足説明
 C Santander Value Prediction Challengeで金メダルを獲得しました
 D HomeCreditコンペ 銀メダル獲得するために行ったこと(寄稿)
 E Kaggleの称号と用語集
 F データ分析の勉強方法
 G kaggleに9ヶ月取り組んで学んだこと
【今後の更新予定】
・アンサンブルについての章を追加する予定です。
・その他、いただいた質問への回答をします。

第1版の書評&試し読み


試し読み

第一版の目次と第一部は以下で読むことができます。

---

価格・購入に関して

このnoteの販売価格は、1500円に設定しました。
・2019年4月に第3版へ更新予定です。

・kaggleのチュートリアル第2版のpdf版を読みたい方
・2019年4月に完成予定のkaggleのチュートリアル第3版を読みたい方
は、
以下から購入をお願いします。
なお、2019年春以降も頻度は落ちますが、質問への回答や更新等を必要に応じ行う予定です。

よろしくお願いします。

この続きをみるには

この続き:1,168文字
記事を購入する

kaggleのチュートリアル。第3版公開しました

カレーちゃん

1,500円

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

note.user.nickname || note.user.urlname

いただいたサポートによりKaggleやnoteの更新に力をいれ、少しでもよいチュートリアルを作りあげます。よろしくお願いします。

嬉しいです!
161

kaggle挑戦記

公務員を退職しkaggleに専業で取り組み、1年間でkaggleマスターになるチャレンジを開始しました。 このマガジンでは、私がkaggleに取り組んで考えたことを中心に発信する日記中心のコンテンツです。(開催中のコンペのことは書けないので、コンペのことはサブミットしたら何...
9つのマガジンに含まれています

コメント13件

こんにちは。引数としてstringかnumberが必要なところ、メソッドを呼んでしまったというエラーのようですが、ちょっとどの行かわからないですね。
なので以下の解決策1と2を提示します。
【解決策 その1】
kaggleのカーネル、若しくはjupyter notebookで動かしていると思うので、分割して動かしてどこの処理のエラーか特定します。具体的は以下の①から⑤に分割して動かすということです。
どこでエラーが発生したかわかれば、恐らくその変数の定義が誤っていたのではとあたりがつくので、そこを見直します。

(文字数の制限のため次のコメントに続きます)
① ランダムフォレストインスタンスの作成
forest = RandomForestClassifier(random_state=1)

② 学習
forest.fit(X_train, Y_train)

③ 予測
Y_prediction = forest.predict(X_test)

④ サブミットデータの作成
submission = pd.DataFrame({
"PassengerId":df_test["PassengerId"],
"Survived":Y_prediction
})

⑤ csvファイルの作成
submission.to_csv("submission.csv",index=False)

(文字数の制限のため次のコメントに続きます)
【解決策 その2】
どこかに入力ミス等があると思うので、サポートサイトのコードを1番上から動かしてみる。
該当ファイルは、次のURLです。
https://github.com/currypan/tb4-datarefinement/blob/master/tb4_kaggle_book_ch5.1_ch5.2.ipynb

回答は以上です。これで動くと良いのですが。
ご回答ありがとうございます。

下記でエラーが出ておりました。
③ 予測
Y_prediction = forest.predict(X_test)

遡ってみると、X_testを定義した下記が間違っておりました。
正:X_test = df_test.drop("PassengerId", axis=1).copy()
誤:X_test = df_test.drop("PassengerId", axis=1).copy

無事解決して先に進めそうです。
分割してエラーを突き止める方法もとても参考になりました。
ありがとうございます!
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。