予想することと回帰分析

回帰分析は、予測や分析を行う時に欠かせないツールです。例えば、明日の売上を予想したい。何をすれば売り上げが伸びるかを考えたい。そんな時、頭の中で何をしているか。実はすでに「回帰分析」を使っているはず。という訳で、今回は回帰分析について考えてみます。

最も単純な例として、
   (身長cm - 100)× 0.9
を考えましょう。身長に数値を入れて計算をすると、結果はおおよその体重kgになります。勿論正確ではありません。例えば身長180cmの人であれば、予測は72kgになります。そして本当の体重が60kgや80kgでもそれほど驚かないでしょう。このように、1つの値(身長)から別の1つの値(体重)を予測する式を単回帰式と呼びます。この例では、体重を目的変数、身長を説明変数と呼びます。

画像3

イメージするために、身長・体重のシミュレーションデータを使った散布図と、単回帰式を重ねてみました。ある程度の予測ができても、太った人、細い人などは身長だけでは予測ができないことは明らかです。

このように体重を予測するには、身長だけでは不十分です。胸囲、胴回り、腕の太さなどがわかれば、もう少し予想の精度を上げられるでしょう。このように体重を予測するために使うデータを増やした式、説明変数が複数個ある式を重回帰式と言います。女性限定ですが、例えば以下の式が知られています。

画像2

この式を用いて体重を予測する時は、身長、胸囲、上腕周囲長を調べ、この式に代入するだけです。この式がわかっていれば、予測はとても簡単にできる訳ですね。そして背が高いほど、胸囲などが大きいほど、体重が多くなりそうだ、という直感と一致していると思います。


さて、単回帰、重回帰式もいずれも「線形」の式です。例えば説明変数が3つの場合は、以下のようになります。

画像1

回帰式を決めることはすなわち係数を決めることです。決定にはデータを使い、できるだけそのデータにフィットするように決められます。ということは、意識すべきこととして、
・回帰式はデータ依存(計算に使うデータが違えば結果が変わる)
・線形近似(適用範囲に注意が必要)
・所詮予測(正しい保証はない)
があることがわかります。

それでも重回帰分析は、自分が予測したい事柄を分析する時、何を説明変数として考えるか、分析の基本になります。その説明変数が結果の値にどのような影響を与えるのかを考えることで、物事を少し深く理解できるのではないでしょうか。

例えば新型コロナウイルスの陽性者数を目的変数と考えて、説明変数をいろいろ考えてみる。これだけでも、今起きている感染爆発の理由などを少し深く理解することができると思います。