Case1: 変数選択は事前に

最近相談されることが増えたのでぼかしながらPitfallっぽいところを解説。

因果推論をするにしろ、予測をするにしろ、解析に用いる変数の選択は事前に行うべきである。アウトカムの有無ベースに並べて有意なものを投入する、というのはやめましょう。

因果推論での変数選択

因果推論であれば、事前に領域の知識に基づいて、交絡因子を選択し、それれらの変数を調整すべきである。これはなぜかというと、中間因子を調整したり、操作変数(あればではあるが)を調整すると、効果の推定を誤ってしまうためである。もっともととっつきやすいのDAGを用いて、交絡因子を同定しておくことである。これは現在の教科書的な正解と言えると思われる。

DAGはハーバードの疫学の先生方が考案された、グラフ理論に基づいて、変数間の関係性を記述するコミュニケーションツールである。すでに日本語でも多くの説明がされているので、そちらを参照されたい。

因果推論における変数選択は奥が深く、以下に解説されている。

まずはKRSKさんのブログ読んでみても良いが、ある程度勉強が進んでいないと難解に感じるかもしれない。個人的にはマジでありがたいブログである。

まずはDAGに基づいて変数選択できるようになる、ってところが最初の入口になりつつあるのでそういうつもりでよろしくおねがいします…。

予測の変数選択

予測の目的は、モデルが予測できれば良いので、予測できる変数を投入するのが良い。既存研究や臨床上予測因子と考えられるものを事前に決定し投入して予測能をみるのがよいだろう。現状利用されているモデルに新しい因子を投入して予測能の改善をみるようなスタイルの研究もよく見かける。

 予測においてもDAGを用いるとよいのではないかと思っている。臨床疫学でのDAGは主に因果推論に使われておりCausal DAGとも呼ばれている。一方で、DAG自体は単なるグラフ理論に基づいた可視化であり、予測の理解のために用いても差し支えないと考えている。どういうことかというと、アウトカムに関わる因子をDAGで整理するということである。実際、喫煙→肺がんのDAGを想定し喫煙から肺がんを予測しようが、ライター←喫煙→肺がんのDAGを想定しライターからのpathで肺がんを予測してもいいわけである。因果推論的な観点から予測をみると、実はこの時、交絡の関係性を用いて、肺がんを予測しているのではないかと考えている。臨床のモデルでは最終的にその解釈性が求められるため、予測の関係性としてDAGを描いておくのは有用とも思われる。

リスク因子研究:いわゆる関連研究

単一のリスク因子をみるような研究の場合は予測か因果かのオリエンテーションを決めればよい。この場合は、リスク因子を因果関係があると考えているのであれば交絡因子を想定して因果推論とおなじように変数選択を行えば良い。予測として考えているのであれば、これまで予測因子と言われたものから独立した予測因子であることを示したいので、変数は既存の予測因子をいれるのがよいだろう。
問題は探索的なリスク研究である。アウトカムベースに二分して差があるところをリスク!と叫ぶ、あの研究である。これは実は解釈が難しいし、何をいっているのか、特に臨床的に何をいっているのか、をどう表現すればよいかわからない。予測か因果の前のサムシング(まだどっちともわからない何か)であることは確かだと思う。なので同モデルを設定するのがベストなのかはNo ideaである。また勉強が進めば記事にしたい。

ということで、今回のまとめ、予測と因果で変数選択の仕方が違うから事前にきめようぜ、という話でした。

この記事が気に入ったらサポートをしてみませんか?