見出し画像

100日後にプロになるワシ24日目(Python)

今日から始まりました

【第2回_Beginner限定コンペ】健診データによる肝疾患判定

スクリーンショット 2020-09-09 9.06.22

前回の疾患有無ケースとほぼ同じ。

ただ、前回のAUCは93とかいくらしく。前回の86とかは軽く超えないといけない。単純になぞるだけじゃうまく行かなそうだ。

ちなみに、このコンペ。ランキングシステムがあって。9月末まで集計される。現状1位が93.555。93%で正解を当てられる。パナイ

スクリーンショット 2020-09-09 9.09.32

ちなみに92以上で昇格が確定する。
それくらいには入りたい所存。

ではやっていく経緯オバ

前回とほぼ同じなので、わからないところは前回をチラチラ確認しながら進めました

スクリーンショット 2020-09-09 9.12.36

まずは必要なデータのインストール

スクリーンショット 2020-09-09 9.12.47

欠損値確認

スクリーンショット 2020-09-09 9.12.54

統計値確認


スクリーンショット 2020-09-09 9.13.01

カテゴリ変数と数量変数を分ける


スクリーンショット 2020-09-09 9.13.19

ヒストグラムでデータの分布を確認


スクリーンショット 2020-09-09 9.13.30

ちょっと飛ぶけど年齢別の疾患ありなしの分布

この分布でわかることは60代で疾患なしの人が異様に多いということ。
くらい?

というのも年齢が高いほど多い?のかもしれないけど30代あたりでも多い。
年代でいうと30代と60代で多い。

とりあえず今日はここまで。
早く学習と改善をして92以上をとりたい































いつもサポートありがとうございます。 難しい方は感想をコメントでいただけると嬉しいです。