見出し画像

#082 統計勉強に使えるオープンデータの情報源3選

最近、統計について学びなおしているのですがすごく感じる課題があります。それは何かというと

「分かった気になり全然使えない問題」

です。何かというと、”超簡単に使える統計!”みたいな書籍を読んで、”なるほどね!”となるも、実際は手が動かず”コード書けない…”といった状態です。

これは、シンプルにインプットだけしてアウトプットがないからだと思っております。そしてこうなる原因は手軽に検証する”データ”が身近に見あたらないからな気もします。

そのため、今回は手軽に使える”データ”を如何にして手元に揃えるかについて備忘録としてまとめます。私のように、意気込んで学びはじめるも、全然使えない…という認識の方はご参考にしてみてください。

▼オープンデータ取得の情報源

結論から言うとデータセットを無料でサクッと落とすことには以下の3つの手段があるかなと思います。

①kaggleのオープンデータ
②signateのオープンデータ
③dataset searchでのオープンデータ

順に触れていきます。

▼①Kaggleのオープンデータ

そもそもKaggleってなんだよ。と思われるかもしれませんが、これは統計スキルを競うweb上で展開される世界的なコンペみたいなものです。

当然、そんなものには怖くて手は出せないワタシですが、実はコンペで使われるデータもオープンデータとしていじれて大量にあります。そのため勉強用として使えます。

結論として英語に抵抗がない人にとってはこのサイトのデータセットを探るのが最強だと思います。手順は大きくは3ステップ

□Step1.ID登録(勿論無料)

まず、https://www.kaggle.com/ にアクセスして右上のRegisterをします。

画像1

googleやらのアカウントなどでサクッと登録できちゃいます。

□Step2.datasetで検索

その後は左のdataから好きなワードなどで検索をすればババっと一覧で落とせるものがでてきます。

画像2

□Step3. 欲しいデータをDL

はい、選択したら後はdownloadボタンおして終わりです。

画像3※トップは新型コロナですね。容量がギガ単位になるので注意!

とても簡単に終わりました!kaggleは本当にデータがわんさかありますね。

▼②Singnateのオープンデータ

はいそして同様にSignateです。これは上記kaggleの日本版です。個人的に私のように英語に抵抗がある人はこちらがオススメ。こちらも同様のステップです。

□Step1.ID登録(勿論無料)

まず、https://signate.jp/にアクセスして右上の会員登録をします

画像4

こちらもgoogleアカウントでもフリーアドレスでもなんでも簡単に登録できます。

□Step2.練習問題を選択

サイトトップから下の方にいくと各種コンペ内容がでます。ここで「練習問題」をクリック。

画像5※こちらは日本語なので親近感わきます。そしてやはりコロナ…

□Step3. 欲しいデータをDL

あとはデータからカラムを確認しつつdatasetをダウンロードです。

画像6

これで終了です!簡単!!

こちらは、とにかく提供しているdatasetも身近なものが多く、カラムの説明もわかりやすくイメージできるので、分析・考察がしやすく初心者はこちらの方がとっつきやすいですね。種類は限られますが。。

▼③Dataset Searchからのオープンデータ

出ました大御所google大先生です。なんとオープンデータをマルッと検索させてくれるという優れものがあります。ステップは以下2つ。

□Step1. 「dataset search」で検索

dataset searchで検索するとこんなウインドウになります。

画像7

Googleっぽいトップ画面です。

□Step2. 必要なデータをザクッと検索して落とす

例えば advertisingで検索すると、kaggleのデータも包括する形でデータがでてきます。

画像8

やはり数は最強です。ただ、上記2つと比べてサイトがマチマチで解説がないサイトがほとんどのため、『初心者に優しいのか?』と問われるとウーン…という感じです。

▼まとめ

以上、統計の勉強(主にアウトプット)をするという時につかえるデータです。ざっくり3つの情報源がサクッと使えそうです。

①kaggleのオープンデータ
→統計界のグローバルスタンダード。データいっぱいで勉強になる。

②signateのオープンデータ
→全部日本語対応でとても身近。一番とっつきやすい。

③dataset searchでのオープンデータ
→Google先生がこの手でも本気を出してきたので最強に数がある。

これから大量データの分析はexcelで表計算するくらい当たり前の時代になると思うので今のうちに各種ツールをこういったデータを元に使い慣れておきたいものですね。

この記事が参加している募集

私のイチオシ

ここまでご覧頂き誠にありがとうございます!今後も誰かのためになるような小ネタや気づきを発信し続けたいと思いますので、スキでもコメントでもフォローでもリアクション頂けると死ぬほど嬉しいです🙇‍♂️🙇‍♂️