データサイエンティストの仮説思考④:データから法則を見つける力を身につける(+過学習を解決する方法について)
読書ノート(129日目)
前回に続いて
今回もこちらの本からです。
この読書ノートでは全5回に分けて
①データを読む力
②データを説明する力
③データを分類する力
④データから法則を見つける力
⑤データから予測する力
を紹介できればと思います。
では、今日は④データから法則を見つける力
についてです。
今回は「データから法則を見つける」
についてでした。
適合率と再現率は、
既に多くの方々が分かりやすい記事を
書いて下さっているので
詳細はこちらをご覧頂ければと思います。
また、決定木モデルはPythonを活用すると
数行のスクリプト入力で分析でき図化まで
してくれるので便利なのと、
決定木モデルは(いかにも!?)
データサイエンティスト感が強まる気がして
僕自身は好きな手法ですし
使えるときは積極的に使いたいと思っています。
ただ、本書では「紙と鉛筆で身につける」
というタイトルが示す通り、決定木モデルも
Pythonで自動で計算させるのではなく、
その分岐となる法則を自分自身で考えてみよう!
という点で凄く学びがあり興味深かったです。
決定木モデルは、
分類の推測確率がなるべく100%になる
法則を見つけて分岐が作られていたという
基本的なことに気付くことができましたし、
もしデータ分析にご興味がある方が
いらっしゃいましたら…
本書のP171のクイズ6
「誰がプレミアムビールを購入しそうか」
がオススメだと感じました。
(ここからは本書の内容とは異なります)
データ分析をしていて陥りやすい罠は
いつくかあるのですが、その罠の一つに
「過学習」があると思っています。
学習データでの予測精度を
高めようとするあまり、
学習データ以外の(未知や新たな)
データの予測精度が落ちてしまう…
ということで今までは
学習データでの予測精度と
検証データでの予測精度の差を確認し
その差が小さければ良いのでは?とか、
また多くの場合は
交差検証法(クロスバリデーション)
を使って対処していました。
そんな中…
「正則化」という過学習の解決法があると
いうことを知り、少し調べていました。
(データサイエンティストを目指していながら
今さら感が満載ではあるのですが…)
正則化について理解を深めようと
いくつかのサイトやChatGPTに聞いて
リッジ回帰・ラッソ回帰のこと、
説明変数を思い切って減らしたり、
偏回帰係数を最適化する手法
ということは理解ができたのですが、
正則化の解説でほぼ毎回出てくる
以下の図の理解がさっぱり…(?_?)
ということで、
リッジ回帰・ラッソ回帰をPythonで実装
することとは別に、そもそも正則化とは?
の理解を深めないとなぁと
実感をした今日この頃です…😂
データ分析の世界は学べば学ぶほど
自分のスキルと知識不足を感じることが
多いのですが、
このような読書ノートに書き残すことで
少しずつでも確実に成長しているはず!
と、そんな気もしています。
年内中~2024年前半までの一つの目標として
(今の自分で対応できる範囲にはなりますが)
簡単なデータ分析をパッケージ化して
ランサーズやクラウドワークスで販売が
できるまでになりたいと思っています。
分析パッケージにどのような分析を
メニュー化するか、納期や価格などは
既に販売されている分析パッケージも参考に
これから考えていこうと思います。
(分析の納期は数日~1週間、
価格は1万円~5万円が相場みたいですね)
とうことで、今日はこの辺で!
今日が3連休最終日の方々もお仕事の方々も
素敵な日をお過ごしくださいませ😄
それではまたー!😉✨
この記事が気に入ったらサポートをしてみませんか?