見出し画像

ゼロから始めてデータサイエンティストを目指してみます⑧

ひきつづき㈱キカガクさんの体験コースについてつぶやいていきます。

05.Python&機械学習入門 - 3 

再生時間:8時間
費用:体験のため無料

動画の再生時間は8時間ですが、自分で作業してみたので実際にはもっとかかりました。終了後にブログを書いてみたら、長くなっちゃって先行きが見えなくなってきたので分割しています(笑)。全11単元ありますが、今回は7から8単元目。

単回帰分析の実装

 単回帰分析の単元で扱った「部屋の広さから家賃を予測する最適なモデルを作成する」を Python を使って考えていきます。ちょっとデジデジしてきました♪ 
 とはいえ話のメインは、python のライブラリ3兄弟(と、私が個人的に呼んでいる)Numpy, Pandas, Matplotlib の解説で、単回帰分析の単元でやったことを再度なぞる感じです。
 Python に限りませんが、プログラミングは基本英語なので、画面は英語が満載です。python 初心者でも、平均 = mean、中央値 = median とかを知っていると表示されるデータの意味が読み取りやすいです。アラフィフは英語が得意なので、実装を習う上でちょっとアドバンテージです、ラッキー。

重回帰分析の実装

 のっけからアラフィフが気になっていたことが解決します。
先生曰く(・・・以下、アラフィフ語訳)

「行列が分からなくても実装は可能だけれど、予測モデルの精度が出ないときなど、数式を理解しているとうまくいくこともある。完璧である必要はないけど、できるだけがんばれ」

・・ということで、ピンとこないながらも行列と格闘を続けます。
 まずは Numpy を使った行列演算を学びます。そもそも行列演算に自信のないアラフィフは一度動画全体を視聴して、自分なりのノートにメモを作成し、次に計算式だけを見て、自分でコードを書いてみました。

 私の知性の限界で(笑)、サラサラと小川のように流れる先生の説明を聞きながら数式の変形を見ていると「データの準備 ⇒⇒⇒⇒ 予測モデルの精度を確認」の長い工程のどこを見ているのか分からなくなりがちです。本当はNumpy を使わなくても一瞬でできちゃう scikit-learn も習うのですが、時間をかけて、自分で考えて作業していると、ふいに自分が今何をやっているのか腑に落ちる瞬間があります。なので、先生のお言葉どおり、分からない数式もできるだけがんばって行こうと決意しました。


 アラフィフは無印のA5サイズリフィルノート(方眼紙)を使ってメモしています。縦線もあるので、インデントをそろえて書きたいときに便利です。
 でもコードを以外にも数式などいろいろ書いているので、すでに「ゴチャ」感が出始めています。こういうのってどうまとめるとよいのでしょうね?他の人と学べるコースで、そういうコツ的なものも教えてもらいたいものです。

さて、7-8単元で扱ったのは練習用の簡単なデータとはいえ「データサイエンティストっぽさ」を感じられることはモチベーションになります。次の単元は演習問題で、さらに実践に近づいていきます。わくわく。

つづく。

#最近の学び

この記事が参加している募集

最近の学び

この記事が気に入ったらサポートをしてみませんか?