この講座の対象者は以下の方を想定しています。
- 数学は中学レベルしか分からないけど統計検定2級に合格したい
- どの参考書を見ても数式だらけで理解できない
- 共分散ってなに?
- 相関係数ってどうやって求めるの?
この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。
今回は、共分散と相関係数についてです。
前回の講座で、散布図と相関の関係について見てきました。
散布図は相関の強弱を視覚的に見る事ができました。
しかし、相関の度合いを具体的な数値に落とし込む事はできませんでした。
そこで、相関の度合いを数値で表すのに必要なのが、共分散と相関係数なのです。
共分散とは何か?

共分散は$S_{XY}$と表記され、意味を一言で表すと、「2つの変数の偏差同士の積の平均」です。
言葉で言われても理解が難しいと思うので、共分散を求める式を見てください。
$S_{XY}=\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+…(x_n-\bar{x})(y_n-\bar{y})}{n}$
やっている事は、2つの変数(x,y)の偏差を掛け、それを全て足し合わせます。
そして、その値を$n$で割る事で共分散を求める事が出来るのです。
共分散は、直接的に相関の度合いを読み取るのに使われる事は少なく、この後説明する相関係数を求めるのに使います。
共分散を求める
では実際に共分散を求めてみましょう。
以下の2つの変数の値から求めてみましょう。
$x$ | $y$ |
4 | 13 |
3 | 18 |
8 | 23 |
5 | 14 |
まずはそれぞれの平均$\bar{x}$と$\bar{y}$を求めます。
- $\bar{x}=5$
- $\bar{y}=17$
これを基に、上記の式から共分散を求めていきましょう。
$S_{xy}=\frac{(4-5)(13-17)+(3-5)(18-17)+(8-5)(23-17)+(5-5)(14-17)}{5}$
$S_{xy}=\frac{4-2+18+0}{4}=5$…共分散
このようにして、$x$と$y$の共分散は$5$という事が分かりました。
共分散から正の相関か負の相関か見分ける事ができる
共分散の持つ特徴として、以下の特徴があります。
- 共分散が正の値:正の相関
- 共分散が負の値:負の相関
このように、共分散の値を見ると正の相関なのか?負の相関なのかを知る事ができます。
相関係数とは?
相関係数とは、2つの変数の間にある関係の強さを表す統計量です。
前講座で、散布図から相関の強さの見かたを学んだと思いますが、その相関の強さを数値で表したのが相関係数です。
相関係数は、-1から1までの範囲で表され、-1に近いほど負の相関、1に近いほど正の相関、0に近いほど無相関になります。
相関係数の求め方
相関係数を求めるには、共分散の値を2つのデータの標準偏差の積で割ります。
式で表すと↓になります。
$r=\frac{S_{xy}}{S_xS_y}$
相関係数は$r$で表しています。
$S_x$は$x$の標準偏差で、$S_y$は$y$の標準偏差です。
先ほどの共分散を求めたデータから実際に相関係数を求めてみましょう。
$x$ | $y$ |
4 | 13 |
3 | 18 |
8 | 23 |
5 | 14 |
共分散$S_{xy}=5$という事は分かっていますので、$S_x$と$S_y$を以下の式で求めます。(標準偏差の求め方は大丈夫ですよね?)
$S_x=\sqrt{\frac{(4-5)^2+(3-5)^2+(8-5)^2+(5-5)^2}{4}}$
$S_x=\sqrt{\frac{1+4+9+0}{4}}=1.871$
続いて$S_y$を求めます。
$S_x=\sqrt{\frac{(13-17)^2+(18-17)^2+(23-17)^2+(14-17)^2}{4}}$
$S_x=\sqrt{\frac{16+1+36+9}{4}}=15.5$
これで必要な値を求める事が出来ましたので、一旦整理します。
- $S_{xy}=5$
- $S_{x}=1.871$
- $S_{y}=15.5$
必要な値が分かったので、上記の式に代入して相関係数を求めます。
$r=\frac{5}{1.871×15.5}=0.172$
このようにして、相関係数は$0.172$という事が分かりました。
相関係数の見かた
相関係数の値は-1~1の間をとるという事は話しましたね。
この数値の見かたとしては、
- $0.2~0.4$:弱い正の相関
- $0.4~0.7$:中程度の正の相関
- $0.7$以上:強い正の相関
として、見る事ができます。
ですので$0.172$という値は、相関があると言うには非常に弱い値だという事が分かります。
また、値がマイナスの場合には、
- $-0.2~-0.4$:弱い負の相関
- $-0.4~-0.7$:中程度の負の相関
- $-0.7$以下:強い負の相関
となります。
Work illustrations by Storyset