産業保健職のための疫学・統計学‐データの分析手法:重回帰分析-1データに線を引こう!

この一連の記事は重回帰分析の仕組みについて解説するものとなります。重回帰分析の実際のやり方については、書籍やYoutubeなどで解説がされていることが多いので、このシリーズは「重回帰分析が何をしているか、イメージができる」ことを重点的に説明していきます。このシリーズを理解したうえで勉強すると、もっと深くわかるようになる!(かもしれません)

対象者は一般的な産業保健職を想定しております。

中学校の数学の復習

さて、重回帰分析が何をしているかを理解するためには、中学校レベルの数学がどうしても必要となります。なので、一次関数についてここで解説します。(一次関数について、十分理解しているという方はこの項目を飛ばしてください。)

直線の式

まず、次の式をみて、グラフに線を引くことはできますか?

$$y = 2x + 3$$

y軸にyを、x軸にxを設定すると、次のようなグラフになりますね?

$${y = 2x + 3}$$の式から、xが1のときは、$${y=2\times1+3=5}$$となるので、赤く色付けしている位置では確かに、$${y=2x+3}$$が成り立っています。

このとき、xにかかっている数、2を傾き、2xに足されている数3を切片などと呼んだりします。

このxとy軸に対して直線を引く式ですが、ありとあらゆる傾きと切片を表す式として、切片を$${\beta_0}$$、傾きを$${\beta_1}$$として

$$y=\beta_0 + \beta_1x$$

と表すことができます。最初の$${y=2x+3}$$という線の式も、切片$${\beta_0=3}$$、傾き$${\beta_1=2}$$の場合ですね?

($${y=ax+b}$$という表記が中学校では一般的だったかと思いますが、ここからは、$${y=b+ax}$$という順番での表記と、$${(b,a)}$$ではなく、$${(\beta_0,\beta_1)}$$という表記にしていきます。

平行線の式

次に、一つの式で線を2本引く方法について考えていきましょう。

$${y=3 + 2x}$$の式は、1本の直線を引く式でした。これを「分裂」させるには、例えば次のように式を設定します。

$$y = 3 + 2x + 2a \\ ただし、aは0か1のどちらかの数字しかとらない。$$

この式をグラフにすると、次のようになります。

$${a}$$が0だと$${y=3+2x}$$で、$${a}$$が1だと$${y=5+2x}$$となります。一つの式で、2本の線を表すことができていますね?

今回、$${a}$$は0か1しか値をとっていませんが、1から6とか、連続数とかその数だけバリエーションを増やすことができます。

ここまで理解いただけたら、基本的な重回帰分析の導入について準備が完了です。

本題:データに線を引こう!

それでは、本題です。次のようなデータがあったとして、そのデータを代表する線を引きたいとします。線の式を、$${Y=b+aX}$$とここではしていきましょう。この4つの点を代表する線を引くことがこの記事の本題になるのですが、どのように引けばよいでしょうか?

まずは、適当に線を引いてみます。$${a=1, b=1}$$とでもしましょうか?直線の式は、$${Y=1+X}$$です。次の図のオレンジの点線がこの線です。それぞれのデータ、点、から、オレンジの点線までの垂線を引きます(オレンジの実線)。

このオレンジの実線の長さを計算すると、次のようになります。


全部で点線から点までの距離が、5離れていますね?($${1+2+1+1=5}$$)
同じように別の$${a}$$と$${b}$$でも距離を計算してみましょう。

$${a=0.5}$$、$${b=2}$$の場合は点線と点との距離が3です。($${0.5+2+0.5+0}$$)

どうでしょうか?オレンジの、$${a=1, b=1}$$で距離が5の場合と、青色の、$${a=0.5, b=2}$$で距離が3の場合、どちらがよりデータに近いところを通る線だと感じますか?

比較してみると、次のようです。青色が見た目としても点の近くであると感じませんか?この点線と点との差を可能な限り小さくしていくと、データに最も近いところに線を引けるという仕組みになります。

このとき、単に差を足し合わせることをしてしまうと、長さだけでなく、大きさが含まれるので都合が悪いため、計算式を書く場合は$${|-5|}$$のように絶対値記号を用いて計算すれば、長さを比較することができます。ただし、次からは文字式で計算を行う必要があり、文字の絶対数の計算はかなり面倒なので、一般的には二乗して足し合わせたものを最小化する$${a}$$と$${b}$$を求めるという数学的な計算を行っていくことになります。(これを最小二乗法による推定と言ったりします。)

最小二乗法による推定の詳細は、この記事の目的からはずれるので解説しませんが、次のように$${a}$$と$${b}$$の文字式を高校数学で学ぶ微分などをして求めていくことになります(統計ソフトがここら辺は全部勝手にやってくれるので、数学的に興味がある人は手で説いてみてもよいかもしれません。)

まとめ

この記事では、一次関数の式と、データを代表する線を引くという話を記載しました。ちょっとややこしいかもしれませんが、この数式で線を引くというところが重回帰分析を考える上で非常に大切なので、ぜひ理解してから次の記事にお進みください。

次は重回帰分析で調整をするという意味を視覚的に理解していきます。

この記事が気に入ったらサポートをしてみませんか?