【後記】Kaggle未経験者向け勉強会#1

2019年3月15日 00:46

昨晩、初めてのKaggle勉強会が終わりました！
私とアドバイザーのNさん含め、総勢７名。
勉強会としては、丁度良い人数だったのでは。
とても有意義な時間になりました。

以下、やったこと・所感・次回予定内容を書いてみます。
次回（4/4）も本当に楽しみです。

◆やったこと
下記、Kaggleのタイタニック生存予測をやってみた記事を皆で読み込んだ。
【Kaggle初心者入門編】タイタニック号で生き残るのは誰？
https://www.codexa.net/kaggle-titanic-beginner/

主に時間を使ったこととしては、同コンペで使用する学習用データ（train.csv）・テストデータ（test.csv）を１つに繋げ（＝分割前の状態に戻し）、各カラムの意味や、データの中身について、皆で意見を出し合いながら理解を深めていった。

********************
どのようにデータを理解したかについては、中々書き切ることが難しいため、ご興味ある方には第２回（4/4）の開始前早めにお越し頂ければご説明します！
ただ、下記リンク先の学習用データ・テストデータを結合したデータに対して、私の理解や勉強会でのコメントを第２回までに記載する予定です。
https://docs.google.com/spreadsheets/d/1PsQPHMkEFN-_26-6D-P7ll1vTZTvbRJmIsWyhW6COaA/edit#gid=0
********************

その後、Pythonのコードもある程度理解していきながら、予測モデル１の予測結果の投稿（Submission）までを読み切った。
尚、ここまでで時間切れとなったため、予測モデル２（予測モデル１の予測精度を上げたもの）は、次回取り扱う予定。

◆所感
・自分が気付かないことを、他の参加者の方が気付いて軌道修正してくれるのが大変頼もしい。
・自分の手が回らないことを、他の方が確認してくださるのが大変ありがたい。
・皆でデータを確認すると、色々と気付きがあったり想像が膨らんだりと、単純に楽しい。また、この時に話したことの何が予測に活きるかまだ分からないため、データの理解はある程度時間を割くべきと感じた。
・モデルの作者がなぜその選択をしてるか分からない点が多々出てくるが、これを疑問として口に出し皆で共有することが大切と感じた。
（勉強していくと、そういうことだったのかー！となる瞬間が必ず来るはずなので）
・決定木については、どういうツリーになったのかの図を見ないと理解が深まらないので、次回はそれをやりたい。
・Pythonにもっと慣れないとコードの読解に時間がかかる。

◆第２回（4/4）にやること
・上記記事の続き（予測モデル２）を読み込む。
・各自Python環境にて予測モデル２の投稿までをやってみる。
・予測モデル１、２の決定木がどのような図になったか確認する。
尚、やることを終わらせるより、理解を深めるのを優先しますので、上記はあくまで予定です。

長文失礼しました。
読んで頂き、ありがとうございます。
勉強会、楽しい！

この記事が気に入ったらサポートをしてみませんか？