見出し画像

Mendelian Randomization勉強日記 10. MRの統計的問題② allele score, sample overlap, winner's curse, selection bias, covariate adjustment, 遺伝的バリアントの選択

mendelian randomization
methods for causal inference using genetic variants chapter 8の勉強まとめ


Allele score 

genetic risk score, gene score, genotype scoreとも呼ばれる。
複数の遺伝的バリアントを一つの変数にまとめたもの。重みづけを考えることもできる。

 ある個人 $${i}$$ が、遺伝的バリアント$${j=1, 2, …, J}$$それぞれに対して $${g_{ij}}$$コピーの暴露を増加するalleleを持っていたとする。
重みづけしないallele scoreは $${\sum_{j=1}^{J} g_{ij}}$$ と表現され、0~2Jの間の整数値をとる。
 バリアント$${j}$$に$${w_j}$$の重みを付けると、重みづけしたallele scoreは$${\sum_{j=1}^{J} w_j g_{ij}}$$ である。

allele scoreを用いる理由

allele scoreを使う理由は主に2つある。
 第一はparsimony (節約、倹約)のためである。例えば、操作変数の妥当性を調べるときに、たくさんの操作変数と交絡因子のセットとの関連をひとつひとつ調べるのは大変だが、操作変数をallele scoreで要約することで評価が単純になり、妥当性違反の検出力も上がる。
 第二にweak instrument biasへの対処のためである。比較的弱い操作変数であっても、操作変数が1種類であればバイアスはゼロに近づくため、複数のバリアントをallele scoreとして1種類に要約することにメリットがある。データで得られた暴露との遺伝的関連を重みとして用いると、2SLS法と数学的に同じことをしており、weak instrument biasは避けられない。しかし、sample twoで得られた暴露との遺伝的関連で重みづけすると、two-sample MRと同じことをしていることになり、バイアスはnullの方向に働くためType 1 errorは増加しない。重みづけしないアレルスコアはsample twoが得られない時に使える方法であるが、検出力は低下する。
 Cross-validation approachで重みを計算する方法もある。つまり、データセットを分割して、分割したデータで計算した重みを他方のデータにも適用する方法である。例えばtwo-fold cross-validation approachではデータを半分ずつに分割して、一方で重みを計算し、他方で暴露とアウトカムの関連を計算する。その逆も行い、計算された2つの操作変数による効果推定値をメタアナリシスして統合する。10個のデータに分割する10-fold cross-validationの方法もある。

allele scoreを用いるときに満たすべき仮定

allele scoreも操作変数の妥当性を満たす必要がある。すなわち、要約に用いる遺伝的バリアント一つ一つが操作変数の妥当性を満たす必要がある。
ただし、1番目の仮定は例外である。もしallele scoreに、暴露と関連しないバリアントを含めて計算しても、操作変数としての妥当性は損なわない(ただしスコアを改善させる効果はない)。

allele scoreの欠点は、複数のバリアントを一つにまとめるのでheterogeneityが計算できないことである。allele scoreを用いることはfixed-effect meta-analysisを行うことと似ている。


Sample overlap

two-sample MRはweak instrument biasの重大さを減らすが、これは偶然の産物であり、two-sample MRを行う主な理由はfeasibilityが高いことである。しかし、大規模な遺伝的コンソーティアムの特徴として、ある程度データの重なりがあるため、2つのサンプルはある程度重複していることが多い。サンプルが完全に離れているときはbias towards the nullであり、完全に一致するときはbias towards observed associationとなる。部分的なオーバーラップのときにバイアスがどちらの方向に働くかは不明確である。

2SLS法でのbiasは1st stage と2nd stageの誤差項の共分散に依存する。つまり、サンプルのオーバーラップの具合に線形に比例する。summarized dataでは、バイアスはバリアント-暴露の関連とバリアント-アウトカムの関連の共分散に比例する。

sample overlapは大きい方のデータを基準に考える。
例えばGとXの関連をsample 1で1000人で調べ、GとYの関連をsample 2で10,000人で調べるときに、sample 1, 2で900人の重複があったとする。
sample overlapは900/10,000=9%である。(教科書のベン図を参照)

sample overlapによるtype 1 error inflationは下記URLで計算できる。

また、アウトカムが二値のときに考慮すべきことが教科書に記載されているので参照のこと。

Winner's curse

 MRに用いる遺伝的バリアントをデータに基づいて決めたときに起こる現象。真実として、暴露と同じだけの関連がある遺伝的バリアントが複数あるとする。すると、データの見掛け上統計的に最も関連が強いバリアントは過大評価される。遺伝的バリアントを決めるときに使うデータセットと、遺伝的バリアントと暴露の関連を推定するときに使うデータセットに重複があると、過大評価→偽陽性の結果につながりうる。
 理想的には遺伝的バリアントを見つけるデータセット、バリアント-暴露の関連を調べるデータセット、バリアント-暴露の関連を調べるデータセットがそれぞれ分かれて3つあるのがよい。しかし、これが不可能またはサンプルサイズを著しく減らす場合には、バイアスが生じるリスクと天秤にかけて妥協する必要がある。

Selection and collider bias

 対象者の選択基準によって生じるバイアスのこと。MRに関連して3つ例をあげる。
①アウトカムが"疾患の進行"のとき
 アウトカムを発症するために、参加者は疾患を発症していなければならない。暴露が疾患のリスク因子であるとき、疾患の発症はcolliderとなるため、疾患を発症した人だけを対象とすると選択バイアスが生じる。

②高齢者を対象とするとき
 ある年齢になるまで生存した人を対象とすると、生存者バイアスが生じる。

③集団のサブセットに関心があるとき
 ALDH2の変異を操作変数として飲酒と食道がん発症の因果関係を調べた例で考える。飲酒量で条件づけて食道がん発症との関連を調べると、selection biasが生じる(教科書のDAGを参照のこと)。
 生物学的性別は生まれながらに決まっているので、colliderとはならない。
 上の研究では、飲酒量で条件づけたときにselection biasがあるが、感度解析を行うとcollider biasだけでは説明できないほど食道がんリスクに与える因果効果は大きいことが示唆された。

Covariate adjustment

 RCTでは共変量の調整は必須ではないが、効率性を上げることと、偶然による不均衡を減らすために行うことがある。MRでも同様に共変量の調整は必須ではないが、例えばweak instrumentを用いて交絡因子に不均衡が起こりうるときに効率性を上げるために行うことがある。2SLS法でもIVW法でも適用可能である。
 しかし、共変量を調整することでmediatorを調整してしまったり、collider biasを生じたりするリスクがあることも把握しておくべきである。一般的には、年齢、性別、遺伝的に主要なアンセストリーの要素、技術的な共変量くらいしか推奨されない。

遺伝的バリアントの選択

MRにおける操作変数となる遺伝的バリアントの選択はpracticalであるが、ここでは統計的な問題のみを扱う。
タンパク質のバイオマーカーが曝露のとき、そのタンパク質を発現する単一の遺伝子領域があることが多い。その遺伝子領域周辺の多くの遺伝的バリアントがタンパク質の発現と有意に関連していることがある。
関連する遺伝子領域に近いバリアントを用いるMRを 'cis' MR, 遠い領域のバリアントを用いるMRを ’trans’ MRと呼ぶ。

MRに一つの操作変数だけを用いることは、統計的に不十分であることが多い。バリアント同士が関連していても、複数のバリアントを用いることで曝露の分散を説明する割合が増える。しかし互いに関連したバリアントを多く含めすぎると、共線性の問題が生じる。このため 'pruning'と呼ばれる、相関が強すぎるバリアントを除去するステップを踏むことが推奨される。
単純な方法はmarginal stepwise pruningと呼ばれる手法である。これは
①まずp値が最も低いバリアントを同定する。
②そのバリアントと、ある閾値以上の関連のあるバリアントを除去する (カットオフの例:  $${r^2 >0.4}$$
③残ったバリアントの中でp値が最低いものを同定する。
④②と同様に、そのバリアントと関連の強いバリアントを除去する。
⑤すべてのバリアントが選択されるか、除去されるまで続ける。
しかし、閾値の設定によってMRの結果が変化しうるケースがある。

関連の強いバリアントをどのように選択するか、は手法論が進化しているトピックである。principal components, factor analysis, Bayesian modelが教科書で簡単に紹介されている。

下記は省略

Non-collapsibility (such as odds ratio)

Time-varying effects

Time to event data (such as hazard ratio)

教科書を参照のこと

この記事が気に入ったらサポートをしてみませんか?