統計学 PR

共分散と相関係数とは?【0から始める統計検定2級講座㊳】

記事内に商品プロモーションを含む場合があります

この講座の対象者は以下の方を想定しています。

  • 数学は中学レベルしか分からないけど統計検定2級に合格したい
  • どの参考書を見ても数式だらけで理解できない
  • 共分散ってなに?
  • 相関係数ってどうやって求めるの?

この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。

今回は、共分散と相関係数についてです。
前回の講座で、散布図と相関の関係について見てきました。

散布図は相関の強弱を視覚的に見る事ができました。
しかし、相関の度合いを具体的な数値に落とし込む事はできませんでした。

そこで、相関の度合いを数値で表すのに必要なのが、共分散相関係数なのです。

 

共分散とは何か?

共分散は$S_{XY}$と表記され、意味を一言で表すと、「2つの変数の偏差同士の積の平均」です。

言葉で言われても理解が難しいと思うので、共分散を求める式を見てください。

$S_{XY}=\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+…(x_n-\bar{x})(y_n-\bar{y})}{n}$

やっている事は、2つの変数(x,y)の偏差を掛け、それを全て足し合わせます。
そして、その値を$n$で割る事で共分散を求める事が出来るのです。

共分散は、直接的に相関の度合いを読み取るのに使われる事は少なく、この後説明する相関係数を求めるのに使います。

 

共分散を求める

では実際に共分散を求めてみましょう。
以下の2つの変数の値から求めてみましょう。

$x$ $y$
4 13
3 18
8 23
5 14

まずはそれぞれの平均$\bar{x}$と$\bar{y}$を求めます。

  • $\bar{x}=5$
  • $\bar{y}=17$

これを基に、上記の式から共分散を求めていきましょう。

$S_{xy}=\frac{(4-5)(13-17)+(3-5)(18-17)+(8-5)(23-17)+(5-5)(14-17)}{5}$

$S_{xy}=\frac{4-2+18+0}{4}=5$…共分散

 

このようにして、$x$と$y$の共分散は$5$という事が分かりました。

 

共分散から正の相関か負の相関か見分ける事ができる

共分散の持つ特徴として、以下の特徴があります。

  • 共分散が正の値:正の相関
  • 共分散が負の値:負の相関

このように、共分散の値を見ると正の相関なのか?負の相関なのかを知る事ができます。

 

 

相関係数とは?

相関係数とは、2つの変数の間にある関係の強さを表す統計量です。
前講座で、散布図から相関の強さの見かたを学んだと思いますが、その相関の強さを数値で表したのが相関係数です。

相関係数は、-1から1までの範囲で表され、-1に近いほど負の相関、1に近いほど正の相関、0に近いほど無相関になります。

相関係数の求め方

相関係数を求めるには、共分散の値を2つのデータの標準偏差の積で割ります。
式で表すと↓になります。

$r=\frac{S_{xy}}{S_xS_y}$

相関係数は$r$で表しています。
$S_x$は$x$の標準偏差で、$S_y$は$y$の標準偏差です。

 

 

先ほどの共分散を求めたデータから実際に相関係数を求めてみましょう。

$x$ $y$
4 13
3 18
8 23
5 14

共分散$S_{xy}=5$という事は分かっていますので、$S_x$と$S_y$を以下の式で求めます。(標準偏差の求め方は大丈夫ですよね?)

 

$S_x=\sqrt{\frac{(4-5)^2+(3-5)^2+(8-5)^2+(5-5)^2}{4}}$

$S_x=\sqrt{\frac{1+4+9+0}{4}}=1.871$

 

 

続いて$S_y$を求めます。

$S_x=\sqrt{\frac{(13-17)^2+(18-17)^2+(23-17)^2+(14-17)^2}{4}}$

$S_x=\sqrt{\frac{16+1+36+9}{4}}=15.5$

これで必要な値を求める事が出来ましたので、一旦整理します。

  • $S_{xy}=5$
  • $S_{x}=1.871$
  • $S_{y}=15.5$

 

必要な値が分かったので、上記の式に代入して相関係数を求めます。

$r=\frac{5}{1.871×15.5}=0.172$

このようにして、相関係数は$0.172$という事が分かりました。

 

相関係数の見かた

相関係数の値は-1~1の間をとるという事は話しましたね。
この数値の見かたとしては、

  • $0.2~0.4$:弱い正の相関
  • $0.4~0.7$:中程度の正の相関
  • $0.7$以上:強い正の相関

として、見る事ができます。
ですので$0.172$という値は、相関があると言うには非常に弱い値だという事が分かります。

また、値がマイナスの場合には、

  • $-0.2~-0.4$:弱い負の相関
  • $-0.4~-0.7$:中程度の負の相関
  • $-0.7$以下:強い負の相関

となります。

 

 

Work illustrations by Storyset

あなたにおススメの記事