見出し画像

統計学:データの関連性

2つの変数を使用したデータの視覚化

今回は、データセットについて見ていく。2つの変数間の関係などがこれに当たる。

このセクションでは、アイスクリームの消費に関連する実際のデータを確認し、以前に確認したデータを視覚化する方法を修正してから、2つの変数を調査する状況にアイデアを広げていく。

あるアイスクリーム会社があるとする。
この会社が利益を上げ続けるためにはトレンドを把握することが非常に重要であり、売上高、価格消費、フレーバーなどのデータはたくさんをたくさん持っている。

グラフやチャートを使用して、利益をサポートするためにはどうすればいいか?

まず最初に実行することは調査。

1つのアプローチは、フレーバーをリストし、次にそれがお気に入りのフレーバーであると言った個人の対応する割合をリストすること。私たちが知りたいことは、アイスクリームの好きなフレーバーが何であるかを答えた人の割合。これを知るために、を円グラフの形で表すのが有効。

また、アイスクリームの売り上げを長期的に見てみたいとしたらどうなるか。Payal:データだけを見ると、数字のリストだけを見て実際に何かを伝えるのは非常に難しいので、通常は時系列グラフまたは折れ線グラフをプロットする。

横軸に時間を示し、対応する縦軸に、指定された各時間の売上を示す。この場合、横軸は月平均気温に対応し、縦軸はアイスクリームの消費量に対応する。そして、通常、ドットで結合する。このプロットから、この山と谷のサイクルのパターンがあることがわかる。

このデータは、アイスクリームの需要が周期的であり、特に夏の間はアイスクリームの需要が高いことを伝えている。
このような方法(散布図)は2つの変数をプロットするための非常に便利な方法であり、2変数間に関係があるかどうかを知ることができる。

賢明な散布図を描く

散布図でパターンを探すときは、最初に散布図が正しく明確に描画されていることを確認することが重要。

散布図を描くとき、​​ある変数が別の変数にどのような影響を与えるかを知りたいことがよくある。他の変数に影響を与えていると思われる変数は説明変数(explanatory variable)と呼ばれ、影響を受けていると思われる変数は目的変数(response)と呼ばれる。

説明変数を水平(またはx)軸に配置し、目的変数を垂直(またはy)軸に配置するのが一般的。

説明変数と応答変数がない場合はどうなるか?

たとえば、人々の年齢と飼っているペットの数に関するデータがあるとする。この場合、飼っているペットの数は年齢に影響されないので、横軸は年齢、縦軸はペットの数をとる。

縦軸がゼロから始まらない場合、棒グラフや線グラフなどの一部のグラフは誤解を招く可能性がある。ただし、散布図を使用してデータのパターンを探す場合は、両方の軸を調整して、データができるだけ読みやすいようにすることに役立つ。
一般に、軸は、データがプロット領域の大部分を占めるようにスケーリングする必要がある。これにより、考えられる関係を簡単に確認できるようになる。

散布図のパターンを解釈するには、少し分析が必要。
散布図内に、すぐに見つけられる特徴がある。それは、外れ値とクラスター。
外れ値は、散布図のデータの一般的なパターンに適合しないデータである。

関係の種類

2変数間には、様々な関連がある可能性がある。

・線形関係
一方の変数の変化がもう一方の変数の変化に比例するように、一方の変数が他方の変数の増加に伴って増加または減少するときの関係。
一方の変数が増加すると、もう一方の変数も一般的に増加するように見える場合、線形関係は正の関係にあるといえる。負の関係の場合、一方の変数が増加すると、もう一方の変数は一般に減少するといえる。

・非線形関係
一方の変数が増加するともう一方も増加場合、単調という。
単調の場合、線形の関係と同じように、正または負のいずれかになる。
特に関連がないような場合、非単調という。

相関

2つの変数の間に線形関係がある場合、それらは相関している、またはそれらの間に相関があるという。関係がせいである場合、正の相関関係があることを示している。負の場合、2つの変数の間に負の相関があると言える。2つの変数の間に関係がない場合、相関関係はないと言える。

・相関強度
2つの変数間に強い相関関係がある場合、対応する散布図上の点は、一般的な関係を表す直線に非常に近くなる。弱い相関がある場合、かなり散らばる。任意の2つの変数間の相関の強さを測定できますが、2つの変数間に線形関係がない場合、必ずしも有用な測定値になるとは限りない。

・相関の定量化

相関関係を定量化することで、2つの変数間の線形関係を測定できる。これに用いるのが、相関係数。これにより、2つの変数にプラスとマイナス1(+/- 1)の間の単一の数値が割り当てられる。

正の相関係数は正の相関に対応し、負の相関係数は負の相関に対応する。値がプラスマイナス1に近いほど、相関は強くなり、値がゼロに近いほど、相関は弱くなる。ゼロの値は、相関がないことを示す。

最も一般的に使用されるのは、ピアソンの相関係数。

この記事が気に入ったらサポートをしてみませんか?