見出し画像

統計学:データのパターン

このセクションでは、2つの変数間の関係をより詳細に説明する方法を見ていく。

二つのデータ間の関係を基本的に直線で表すが、曲線になる場合もある。このようなことをした場合、外挿法(extrapolation)と呼ばれるテクニックを使用したということになる。

・外挿法(extrapolation)
持っているデータを前提として私たちが行っていることは、将来起こると予想し、値の範囲外を推定しようとする方法。

しかし、これを扱うときは、時間の経過とともに同じようなことが継続しているということが前提にある。

最適なライン

データの変動性により、発見の数が時間の経過とともにどのように変化したかを説明するのは困難。
最適な線を引くことを通じて、時間の経過による基本的な傾向を要約することが可能になる。

最適な線は、ポイント間の距離と単純な最適な線を何らかの方法で最小化することで描く。

グラフに、線から遠く離れた点がたくさんある場合に描く曲線に、傾向曲線というものがある。

回帰

回帰とは、グラフに最適な「最適な」線を定義して計算すること。これにより、曖昧さを取り除くことができる。

グラフの回帰直線を生成するさまざまな方法があるが、最も一般的なものが、二乗回帰(squares regression)。このコースでは常に最小二乗法を使用する。今後は最小二乗回帰を単に回帰と呼ぶ。

ここに、ンバラマラソンでのマイリの10回のトレーニングランの距離と平均速度を示すがグラフがある。

スクリーンショット 2022-03-07 11.48.41

グラフに最適と思われる線を描画し、線とグラフの各点の間の垂直距離にマークしてある。

これらの垂直距離は残差(residuals)と呼ばれ、残差を2乗してすべて合計することにより、散布図上の点が線からどれだけ離れているかを示す数値が得られる。

この値は任意の直線に対して計算でき、それを最小化する一意の線が常に1つある。これを線形回帰直線(linear regression line)と呼ぶ。

2つの変数の間に線形関係がないことが明らかな場合は、線形回帰直線を当てはめようとしても意味がないことに注意すること。この場合、曲線であることを考慮する。

では、線形回帰の調査について見てみる。

線形回帰直線は、2つの変数間に線形関係がある場合、「典型的な」データポイントがどのように見えるかを知ることができるため非常に有効。次に、他の変数の特定の値に対して、一方の変数の値を推定または予測するために使用できる。

回帰直線をどのように説明することができるか?

直線は傾きと切片で表すことができる。

これまで、データのパターンを研究するための2つの手法、相関と回帰について見てきた。

相関は、データ内にどれだけ強い線形関係があるかを測定し、回帰は、データに最適な線を提供する。基本的に、2つの変数の間に線形関係がある場合、回帰は最適な直線を提供し、相関はデータがこの線にどれだけ近似しているかを示す。

パターンの解釈

統計の主な目的の1つは、データを使用して、実際の母集団に関することを結論付け、予測することです。

これを行う最も簡単な方法の1つは、データのパターンを調べて解釈すること。

統計の特に興味深いアプリケーションの1つは、データを使用して、私たちの周りの世界で目に見えない、または将来のイベントについて予測すること。これを外挿という。
最適な線を使用して、変数が観測されたデータ値の範囲内にあるが、それらとは異なる場合に変数が取る可能性のある値を推定することもできる。これを内挿(interpolation)という。

外挿は、一般に、観測値から遠く離れた説明変数の値で何が起こりそうかを推定することを意味するために使われる、しかし、データの傾向がこれまで続くとは限らないことに注意が必要。一方、内挿したい値と同様の値のデータを通常、観察しているため、内挿を正当化する方が簡単。

気温が高いほどアイスクリームの消費量が増えるといったような、つの変数が、一方の変数の変更がもう一方の変数の変更を直接引き起こすような関係がある場合、それを因果関係(causal relationship)があるという。。因果関係があるときは、それらは相関関係にもあるといえる。

相関関係と因果関係

2つの変数が相関しているからといって、一方が他方を引き起こすという意味ではないことは明らか。相関関係=因果関係を意味するということはない。
相関関係がある場合、それはいくつかの異なる原因によって引き起こされる可能性がある。その中に因果関係がある場合がある。
2つの変数が一致しているが、これらに関与する別の変数のことを、交絡変数(confounding variable)と言う。交絡変数があることに注意が必要。



この記事が気に入ったらサポートをしてみませんか?