見出し画像

【Python初学者に告ぐ】 データサイエンス100本ノックに取り組まれよ

Python初学者の方に
絶対取り組んでほしい教材として、
データサイエンス100本ノックをご紹介します。

Pythonの基礎文法は理解した。。。
リストや辞書も何となく扱える。。。
次は何をやったらいいんだろう???
そんな思いを持っている人にぜひお勧めしたい教材です。

ちなみに、Python中級者でも、新しい発見ができて、十分楽しめる教材だと思います。

どのようなスキルが身につくか?


データを自由に加工・集計するスキルが身につきます。
もっと具体的に言うと、
Pandasのスキルが身につきます。

データサイエンスとあるので、
データ分析のスキルのようなものを想像された方もいるかもしれませんが、
本書では扱いません。

ただ、よくよく考えて欲しいのですが、
データを自由に加工・集計できるスキルがなければ、
データ分析もできません。
まずは、データサイエンスの土台となるスキルを養うのが本書の目的です。

なぜ、この教材なのか?


Pandasの本は他にもいくらでもありますが、
実践力を身につけるためには、
自分で考え、自分でコードを書くことが
重要になってきます。

この教材では、
実際のビジネスで使われるようなリアルなデータにもとづき、
実践で使うような問題が与えられます。

これが一番、良いところです。
つまり、教材に使われているデータの質が高く、
問題の質も高いということです。

問題を解く過程で、自分で考える習慣が養われますし、
何度もコードを書くことで、自然にスキルが身についていきます。

私も初学者の頃、1ヶ月ぐらいかけて、
この100本ノックに取り組みました。

この100本ノックを終えた頃には、
それまでとは見違えるほどのスキルが上がってました。
ドラゴンボールの「精神と時の部屋」で修行したような感覚でした(笑)

ノックの概要


ざっくり分類してみると、以下のような内容になると思います。

  • さまざまな条件抽出

  • あいまい条件でのデータ抽出

  • データの並び替え

  • 正規表現の取り扱い

  • 基本統計量を算出

  • データベースの結合

  • 日付型データの取り扱い

  • 正規化・対数化

  • サンプリング

  • 外れ値・異常値・欠損値

  • 地図座標データの取り扱い

  • 名寄せ

  • データ分割

  • 不均衡データの取り扱い

  • ファイル入出力

この100本ノックの中で、特に身につけたいのは、
queryメソッドを使った条件抽出と、aggメソッドを使った集計です。
何度も書くことになりますので、
ちゃんと取り組めば、自然に身につくと思います。

100本ノックのプログラミング環境について


Docker環境が用意されています。

Dockerの環境構築ができれば、Pythonであれば、Webブラウザ上で、JupterLabを使って実行することができます。

Dockerと聞くと、
「自分に環境構築できるか?」
と不安になる方もいるかもしれません。
「そもそもDockerって何?」
と思う方も多いと思います。
ご安心ください!

この本を購入すれば、詳細なやり方が記載されています。
非エンジニアだとDockerを使う機会自体あまりないと思うのですが、
本書はDockerを知る良い機会だと思うので、
こちらも勉強してみてください。

ちなみに、
Dockerを利用せずに100本ノックを実行する方法も巻末に収録されています。

さいごに


実はこの書籍、Pythonだけでなく、SQLやRも学べます。
一冊の本で、3回楽しめるわけですね。
ドラクエと
ファイナル・ファンタジーと
クロノ・トリガーが
一つのソフトになったようなものです。

超おトクなので、
まずは、書店で手に取ってみることをオススメします。

この記事が気に入ったらサポートをしてみませんか?