はじめてのKaggleチュートリアル【初心者入門】

※「Kaggleって何なのかよく分からない」という方は、僕が執筆したこちらの記事をまずご覧ください。

「機械学習・データ分析に興味があるから、Kaggleを始めたいけど、何をすれば良いのか分からない...」

そんな初心者のために、分かりやすいチュートリアルを作成しました。

分析結果をSubmissionして順位を獲得するところまでやります。

言語はPythonの基本が分かっていればOKです。

目次
1.会員登録する
2.コンペに参加する
3.Hello, worldする
4.データとコンペの目的を理解する
5.Submissionして、順位を獲得する
6.終わりに

(順位に載るとワクワクしますね...!)

1.会員登録をする

Kaggleにアクセスし、右上のSign inボタンをクリック。Google、Facebook、Yahooまたはメールアドレスで会員登録をします。

2.コンペに参加する

会員登録が完了したら、コンペに参加します。

有名な初心者の入門コンペとして、Titanic: Machine Learning from Disasterという、タイタニック号の乗客の年齢や性別から、その人が生存したか否かを予測するコンペがあります。詳しくは後ほど。

これに参加しましょう。ページの上部から、Competitionsをクリックします。

下の方にスクロールすると、

これが見つかるのでクリックして下さい。もし見つからない場合はこちら↓(同じページに飛びます。)

Join Competition」をクリックしてコンペに参加します。

これでコンペに参加できました。

3.Hello, worldする

KaggleはKernel環境を提供していて、ブラウザ上でPythonのコーディングをすることが出来ます。

それではさっそくHello, worldをしてみましょう。

Kernelsタブをクリックします。(注: 上の黒いメニューにもKernelsがありますが、そこではなくコンペの中のKernelsをクリックして下さい。)そして右にある「New Kernel」をクリックします。

ScriptかNotebookかを選択するように聞かれます。まずはJupyter Notebookが使えるNotebookを選択しましょう。

すると、Jupyter Notebookが現われます。

もともと書いてあるコードは一度消してしまいましょう。そして

print('Hello, world')

と書いて、左側の青色の実行ボタンをクリックして下さい。(注: 左側の青色の実行ボタンは、エディターにフォーカスがあると表示されます。見当たらないときは、一度エディターをクリックしてみましょう。)

Hello, world

と表示されます。これでHello, worldすることが出来ました。

4.データとコンペの目的を理解する

Kaggleから3つのデータ

train.csv
test.csv
gender_submission.csv

が渡されています。このデータがKaggleのコンペではとても重要になります。

データの中身はここから見ることが出来ます。

それでは、各ファイルの解説をします。

train.csvには、891人の乗客について、乗客ID、性別、年齢、生死の情報など12項目のデータが含まれます。

test.csvには、418人の乗客について、乗客ID、性別、年齢など11項目のデータ(1項目少ない!)が含まれます。生死の情報は含まれていません。

私たちがするべきことは、train.csvを訓練データとして分析を行い、test.csvの乗客の生死を予測することです。

そして、train.csvの乗客について、乗客IDと生死の情報の2項目のデータを記録したcsvファイルを作成して、Kaggleに提出し、その精度を参加者間で競います。これがコンペの目的です。

 3つめのgender_submission.csvですが、これは提出用のサンプルファイルです。男性なら死亡、女性なら生存という単純な予測をしています。

実は、女性より男性の方が死亡率が高いので、このような単純な予測をしてもそこそこの精度になります。

今回は、このファイルを提出してみましょう。

5.Submissionして、順位を獲得する

Hello, worldプログラムを消して、以下を入力して下さい。

import pandas as pd #pandasをインポート
#ファイルの読み出し
df_gender_submission = pd.read_csv('../input/gender_submission.csv')
#ファイルの書き出し
df_gender_submission.to_csv('gender_submission.csv', index=False)

入力したら、右上のCommitボタンを押します。Commitは、「保存&実行」だと思って下さい。

少し待つと、次の画面が表示されます。Open Versionをクリックして下さい。

Outputをクリックして、Submit to Competitionをクリックします。

すると、提出が完了しました!
Scoreは0.76555です。これは予測が76%の精度だったということです。Jump to your position on the leaderboardをクリックすると、自分の順位を見ることが出来ます。

6.終わりに

いかがでしたでしょうか。

今回はサンプルファイルを提出しただけですが、Kaggleがどのようなものか分かっていただけたと思います。

あとはデータ分析・機械学習を勉強して、より精度の高い予測を目指していただければと思います。

もしチュートリアルに誤りがあればご指摘いただけると幸いです。

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

52

アカネヤ

#機械学習 #データサイエンティスト 記事まとめ

機械学習やデータサイエンティスト関連の記事を収集してまとめるマガジンです。
2つのマガジンに含まれています
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。