dmaruyama

統計学を中心としたお勉強のアウトプット&忘れっぽい未来の自分のためのメモを残し…

dmaruyama

統計学を中心としたお勉強のアウトプット&忘れっぽい未来の自分のためのメモを残します 内容は知識のアップデートに応じて随時更新します

最近の記事

Andrew 先生から ML Ops の基礎を学ぶ①

とあるきっかけで Coursera の「Machine Learning Engineering for Production (MLOps)専門講座」の受講を開始しました。細かい実装の技術には関心は薄いのですが、プロダクション環境に機械学習を乗っけるにあたってどういった手続きを踏んでどういった点を考慮する必要があるのかしっかり学び、ML系のプロジェクトを円滑に進められるようになりたいというモチベーションです。 専門講座はいくつかのコースで構成されていますが、もしかしたら 1

    • ベイジアンネットワークに関するあれこれ

      とある課題に対してベイジアンネットワークのアプローチをとる検討を行うことがあり、本を読んで再インプットしながら整理のメモを残します。 ベイジアンネットワークとはベイジアンネットワークとは、条件付き独立性に基づいて多変数の依存関係を DAG でモデリングするアプローチです。例えば A ~ E の 5 変数について図のような依存関係を持つ場合に、これら 5 変数の同時確率分布(BN の文脈では大域的分布)を次のように局所的分布に分解して表現します。 $$ P(A, B, C,

      • 効果検証における期間前後比較と中断時系列分析

        プロダクトをリニューアルする、など対象をランダムに分割せずに全体に対して行う施策において効果検証を行う際には「施策を行った日の前後 n ヶ月」を比較するようなアプローチをとることがあります。 この方法について、施策の因果的な効果という文脈での妥当性について考えを整理しておこうと思います。 期間前後比較をする際の仮定まず、期間前後比較で効果検証する際には何を仮定しているのでしょうか。ルビンの潜在反応モデルにおいては「施策を経験した場合のアウトカム」と「施策を経験しなかった場

        • 統計的仮説検定で p 値だけでなく効果量も見ましょうねと言われる背景について

          統計的仮説検定を行う際には、単に検定というフレームワークに当てはめて p 値が有意水準を下回るかどうかをみるだけでは、本来評価したいことが適切に評価できていないことがあります。 "意味のある"評価のためには、効果量や検出力もあわせて検討する必要があります。そのあたりの話をシミュレーションを交えて確認していきたいと思います。 import numpy as npimport pandas as pdfrom plotnine import *import rpy2 from

        Andrew 先生から ML Ops の基礎を学ぶ①

        • ベイジアンネットワークに関するあれこれ

        • 効果検証における期間前後比較と中断時系列分析

        • 統計的仮説検定で p 値だけでなく効果量も見ましょうねと言われる背景について

          plotnine で python から ggplot2 ライクなグラフ描画を行う

          この頃 ggplot に入門してみて、特定のデータをハイライトするなどちょっとこみいったチャートを作成したいシーンで使い勝手が良いなと感じました。EDA の時には慣れている matplotlib や seaborn でささっと描画して、レポーティングの時に見栄えの良いチャートを作るなどの際には ggplot を使いたいと思いました。 python から(見た目だけではなく文法含め) ggplot ライクなグラフ描画ができるパッケージとして plotnine というものがあり

          plotnine で python から ggplot2 ライクなグラフ描画を行う

          CATE を推定する Uplift Modeling の概要

          アップリフトモデリングについていくつか書籍と論文に目を通して勉強しました。興味のある箇所をピックアップしてメモします。 Uplift Modeling の概要Uplift Modeling は ATE や ATT よりもっと細かくサブグループ、ないしは個人ごとの因果効果を推定する手法です。これは Conditional Average Treatment Effect, CATE を推定することと言い換えることができます。ある個人 $${i}$$ の treatment を

          CATE を推定する Uplift Modeling の概要

          相関から一歩進んで因果を調べたい時の共変量の選択基準について

          回帰分析や傾向スコアを用いて因果推論をする際には、何を共変量として考慮する必要があるのか特定する必要があります。その考え方については、「統計的因果推論 -回帰分析の新しい枠組み- 」で大変わかりやすく丁寧に解説がされており、そちらでのお勉強のメモを残しておこうと思います。 相関を因果と見做すためには$${X}$$ と $${Y}$$ の間に相関関係があったとしてもそこに因果関係があるとは限りません。例えば次のような関係性の第三の変数 $${Z}$$ が存在する場合には、$$

          相関から一歩進んで因果を調べたい時の共変量の選択基準について

          因果推論と Statistical Matching の基礎のお勉強メモ

          因果推論の基本ルビンの潜在反応モデルでは、ある人物に介入した時の反応($${Y_1}$$)と介入しなかった時の反応($${Y_0}$$)の差を介入の因果的効果と見做します。 しかし、現実には同一人物で介入をした場合としなかった場合を同時に観測することはできずません。(影分身してもらわないといけません。) そこで、個人ではなく集団における平均的な因果効果として$${E[Y_1 - Y_0] = E[Y_1] - E[Y_0]}$$ (これを ATE: Average Tre

          因果推論と Statistical Matching の基礎のお勉強メモ

          吸収マルコフ連鎖を用いたプロダクト分析アイデア

          はじめにプロダクトの分析においては、ユーザーを任意にセグメンテーションして、より好ましいセグメントに遷移してもらうように施策を考える、ということを行います。例えば RFM 分析では Recency, Frequency, Monetaly の 3 つの尺度でユーザーを分類して、現状を把握し、優良グループを増やすなどの施策を考えます。 このとき、任意に定義された状態をユーザーは時間に応じて移動していくことになります。複数の状態を遷移していくような行動をモデリングする際にはマルコ

          吸収マルコフ連鎖を用いたプロダクト分析アイデア