データ解析によって得られた統計的なモデル(ブラックボックスモデル)の中身を解釈するという愚行

統計モデルの中身の解釈はできません、という話です。

一番簡単な例として、線形の重回帰分析を行って、その回帰係数を各変数の寄与度として解釈する人、いますよね。そんな解釈、意味ありません。

ちなみに、理論的に数式を組んでいって、物理モデルを構築した後に、いくつかフィッティングパラメータが残ってしまい、そのパラメータを統計的に最適化することもありますよね。その最適化された値さえも、実は解釈できません。

少しでも統計が入ってしまえば、すべてブラックボックスモデルになってしまうのです。グレーボックスモデルなんてありません。ホワイトボックスモデルか、ブラックボックスモデルかのどちらかです。

それはなぜか、の具体的な理由は有料とさせていただきます。内容は新しい情報が入り次第、随時更新します。また人気が出てきたら値段を上げてみるかもしれません。

統計モデル、つまりブラックボックスモデルもしくはグレーボックスモデル、の解釈に関する真実を知りたい方はぜひご購入ください!

ちなみに、わたしは、ブラックボックスモデルを、他の情報から解釈しようとせっせと研究中です。そのあたりの状況についても追記されるかもしれません。

この続きをみるには

この続き:1,128文字

データ解析によって得られた統計的なモデル(ブラックボックスモデル)の中身を解釈するという愚行

univprof

380円

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

3

univprof

データ解析・統計解析

データ解析・統計解析に関する記事です。[New] 実業家としても有名な堀江貴文さん(ホリエモン)のメルマガ[Vol.359]における副業紹介において、このプログラム・コード販売・note記事が、なんと 1番 に紹介され評価していただきました!

コメント5件

noteのご購入およびご質問ありがとうございます。質問に回答させていただきます。
「目的変数の誤差の最小化」について、例えば、各サンプルの目的変数の誤差がありますが、それを二乗したものをすべてのサンプル分を足し合わせたものの最小化が挙げられます。これはよく、最小二乗法と呼ばれるものです。重回帰分析と組み合わせて使うことが多いと思います。
ご指摘の標準化偏回帰係数でも、変数の寄与度とすることは危険です。上の例でいえば、ただ各サンプルの目的変数の誤差をそれぞれ二乗したものをすべて足し合わせたものを最小化した結果、得られたのが標準化偏回帰係数です。すべての変数を踏まえて、誤差を最小にした結果であり、それを個別の変数の寄与度とすることはできないわけです。変数間の関係が全く独立であれば話は別ですが、基本的に変数間になんらかの相関があり、それによって解釈が不可能になっているということです。
ご質問ありがとうございました。以上の回答内容は本文に反映させていただきます。
また本文内容の記述へのご配慮に感謝致します。ymzk41さんの質問内容でしたら問題ないと考えております。もちろん、あまり多くの有料部分の内容をお書きになることは遠慮していただきたく存じますが、今回のご質問にある内容でしたら全く構いません。
コメントいただきましてありがとうございます!
確かに、冷静に考えると回帰はあくまで残差平方和を最小にする方法であって係数の強度を推察することでは無いですね。
また偏回帰係数も非線形性や交互作用を考慮しているわけではないにもかかわらず、都合よく使用しておりました。気をつけるようにします。
医療関係のデータを扱う方なら当然なのかもしれませんが、本当に寄与度を知りたければ交互作用を考えた上で検定試験するなどしないといけませんね。
(でもスパースなデータから因子の寄与度が知りたいという質問、本当に多いですよね…私は新人の会社員なので上手く乗り切りたいところです…)
ご確認ありがとうございます。おっしゃるような質問があるとのこと、お察し致します。応援しています!
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。