多重共線性の問題はニューラルネットワークモデルでは解消されますか？

ニューラルワークスではじめる問題解決への機械学習の活用

2023年10月28日 18:06

重回帰分析を行なう際に説明変数間に強い相関がある場合、解が不安定となる現象が起こります。

例えば、回帰式を決定するためのデータの測定ノイズがほんの少し異なるだけで，全く異なる偏回帰係数のセットが得られ、ときに符号すら変化してしまうこともあります．これは多重共線性と呼ばれています。

例えば、予測したい変数をz,説明変数をx,yとしたときに
z = ax + by + c -----(1)

として、最小自乗法によりa,b,c を決定する場合、（標準化された）x,yが独立な場合にはa,bはx,yそれぞれのzに対する影響度を表すと考えることができます。

しかし、例えばxとｙの間に
x=2y -----(2)

の関係があった場合、(1)は
z= (2a+b)y -----(3)

と変形されます。

この場合、測定データから(2a+b)は計算できても、aおよびbを単独では決定することは出来ません（解が一意に定まらない）。

多重共線性は本質的に説明変数の独立性の問題であり、ニューラルネットワークモデルの構築に関しても問題は解消されません。業務上、予測値の精度のみが求められる課題では、多重共線性は実際上は問題になりませんが、逆問題への予測モデル活用で、制御因子の値を決定する場合には、予測精度を多少犠牲にしても多重共線性の問題を回避する必要があるでしょう。

ちなみに多重共線性の問題を事前に排除するには、物理的にほぼ同じ意味の変数、因果関係として中間因子である変数かどうかを検討し、説明変数同士の相関係数が高い変数（0.8以上が目安）、事前に一方を排除するなどの変数の選定が有効です。

※弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年　
　以上に渡るプロジェクト経験に基づき、ご支援しています。
　社内セミナーの企画等、お気軽にご相談いただければ幸いです。

製品カタログ

この記事が気に入ったらサポートをしてみませんか？