因果関係を考えるには？

2021年2月13日 20:13

はじめに
相関関係と因果関係は違うという言葉はかなり広がりましたが、因果関係はどのように検証できるかはあまり一般的には知られていないのではないでしょうか？
今回は因果関係を検証するには何をしないといけないのか、何が難しいのかをまとめることができたらと思います。

因果とは何か？なぜ難しいのか？

同じ対象が介入を受けた場合の結果変数の値と介入を受けなかった場合での結果変数の値の差があれば、因果があるという。
難しい言葉も含まれていますが、要は歩いたら進むのような、これしたらこうなるが説明できれば良いというわけです。
では因果をみると何が良いのでしょうか？因果をみることで、要因に介入することで結果を変えることができることが良い点です。

広告がわかりやすいですが、広告費に応じて売上が一定値まで正比例するkとが示せたら、広告をかければかけるほど売上が立っていきます。
しかしそれが広告をしたからなのかがわからないと多額の資金を投入して良いかわからなくなります。そのため因果関係が大事になります。

ではなぜ因果関係をみるのは難しいのでしょうか？
それは交絡因子が存在するためです。交絡因子とは目的変数Y、説明変数Xの間に共通して存在する別の要因のことです。
この交絡因子が存在することにより実際には関係のないものが相関し、疑似相関されます。これが相関はしているけど因果関係ではないと言われる時の1つの要因です。

交絡因子の影響を小さくする工夫

交絡因子を取り除く方法もあり、RCTと呼ばれるランダム化比較実験と呼ばれる実験研究をすることで交絡因子を取り除くことができます。
RCTとは介入するしないを無作為に割り付けるものです。かなりシンプルなのですが、無作為と割り付けがされている必要があります。
作為が無く選んだつもりでもたまたま結果に影響を与える要素が偏っていた場合、無作為とは言えません。
また割り付けとは、対象者と介入の内容を一対一対応させることで、対照群には意図は無くても結果的に介入してしまったは回避する必要があります。
さまざまな問題があり、実際にRCTが使われることはそこまで多くはありません。

層別解析
交絡因子となる可能性のあるもので、似た数値を出しているところでグループを作ってしまうやり方です。
例えばスニーカーによる短距離のタイムの改善を考えているとします。このとき年齢や性別などはタイムに影響しそうな要素ですが、スニーカーと年齢や性別などは直接関係ないので、グループを作っても問題はありません。
しかしスニーカーが影響するのであれば、年齢・性別関係なく同じような因果関係が出てくるはずです。

重回帰分析
任意の変数の傾きのパラメータβ(偏回帰係数)は他の変数の値を固定した場合にその変数の値を1変化させた時のyの変化量を表しています。したがって交絡因子の値を固定してxのみ変化させたときにyがどれくらい変化をするかをみることができます。しかし注意が必要なのは交絡因子と説明変数の間に強い相関がある場合に不安定な状態になります。
これは交絡因子だけでなく、重回帰分析を行う上での注意点ですが、目的関数を説明する項それぞれは独立して動く必要があります。

層別解析vs重回帰分析
どの変数を説明変数にするかに恣意性があるのですが、交絡因子の数に制約が少ない点が回帰分析を用いる1つのメリットです。
一方で目的関数と説明変数の間に線形性(比例関係のようなもの)が仮定できるかの確認が必要になります。仮定が成立しない場合には層別解析を行うことになります。
またどの説明変数を投入すべきかにはバックドア基準と呼ばれるものがあります。

バッグドア基準

以下が一般的な定義になります。
因果ダイヤグラムGにおいて、XからYへの有向道があるとします。
その時以下を満たす集合Zは(X,Y)についてバックドア基準を満たします。

①Xから集合Zの要素に有向道がない。
②XとYを結ぶ全ての道で、Xへ向かう道を全てZが有向分離できる。

因果ダイヤグラムとは、因果関係を考えたい二つの要因やその他の要因を矢印で結ぶものです。その他解釈が難しいものが多かったので、自分なりにまとめてみました。
①はモデルに追加した説明変数はXの下流側にないことを意味します。どういういことかというと重回帰分析の項目で、他の説明変数と相関しない必要があると書きましたが、ある説明変数の下流に説明変数がある場合、上流の説明変数が変わることで下流の説明変数も変わってしまうため正確な予測ができなくなります。それを防ぐための条件です。

②はモデルに追加した説明変数の組により上流側の共通要因からのXとYの両方に与える流れが全て遮断されているということで、これは交絡因子を考えなくて良いことを意味します。存在しても打ち消すような形になっていれば良いです。

つまり説明変数が相関せず、交絡因子も無視できることから純粋な説明変数による目的変数の変動と捉えることができるため、「X→Yの回帰係数βxy」をそのまま「X→Yの介入効果」と捉えることができるというわけです。

まとめ
実務で効果測定をするときに因果関係を証明するのがとても難しく、調べている中で出てきました。これは概念的なところなので実例をみながら実際の因果関係分析を試行錯誤する必要があるのですが、なぜ難しいのか、クリアするためにはどんなことを考えないといけないかを整理する機会になりました。

この記事が気に入ったらサポートをしてみませんか？