この講座の対象者は以下の方を想定しています。
- 数学は中学レベルしか分からないけど統計検定2級に合格したい
- どの参考書を見ても数式だらけで理解できない
- 独立性の検定ってなに?
- 適合度の検定と何が違うの?
この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。
今回は、独立性の検定について解説します。
適合度の検定と混ざってしまったり、少し理解し辛い部分もありますが、ひとつずつ冷静に覚えていきましょう。
独立性の検定とは何か?
独立性の検定とは、2つの変数の間に関係があるかどうかを検定する統計手法です。
主にクロス集計表を使い、解いていきます。
独立性の検定の例
例えば、以下のようなシーンで使われます。
- アンケート調査の結果を分析する際に、性別と回答の割合に関係があるかどうかを検定
- 実験の結果を分析する際に、薬剤の投与と効果に関係があるかどうかを検定
- 市場調査の結果を分析する際に、年齢と商品の購入率に関係があるかどうかを検定
このように、独立性の検定は、2つの変数の間に関係があるかどうかを検定する際に使用される重要な統計手法です。
独立性の検定の解き方
では実際に、例題をもとに独立性の解き方を見ていきましょう。
例題
男性100人、女性120人に「りんご、メロン、イチゴ」の中で、一番好きな果物は何か?というアンケートをとった。
その結果が以下のクロス集計表である。
この結果から、男性と女性で好きな果物の傾向に差があるかどうかを、有意水準5%で検定せよ。
りんご | メロン | イチゴ | 合計 | |
男性 | 42 | 35 | 23 | 100 |
女性 | 25 | 43 | 52 | 120 |
合計 | 67 | 78 | 75 | 220 |
この問題を解いていきましょう
解き方の流れは、いつもの検定の流れの以下の通りです。
- 帰無仮説と対立仮説を立てる
- 検定統計量を求める
- 棄却域の設定
- 帰無仮説が正しいか検証
①帰無仮説と対立仮説を立てる
独立性の検定において、帰無仮説は「行と列が互いに独立である」ことを帰無仮説とし、「互いに独立でない」ことを対立仮説とします。
今回の場合ですと、
- 帰無仮説:性別と好きな果物は独立である
- 対立仮説:性別と好きな果物は独立ではない
となります。
②検定統計量を求める
続いて検定統計量を求めたいところですが、そのためには適合度検定でもやったように、理論値を算出しなければいけません。
ですので、その求め肩を解説します。
理論値の求め方
りんご | メロン | イチゴ | 合計 | |
男性 | 42 | 35 | 23 | 100 |
女性 | 25 | 43 | 52 | 120 |
合計 | 67 | 78 | 75 | 220 |
たとえば、↑のクロス集計表の「男性・りんご」の実測値は42です。
これの理論値を求めるには、りんごを選んだ人の総数である$67$に、全体の人数の中での男性の比率である$\frac{100}{220}$を掛ける事で求められます。
$67×\frac{100}{220}=30.45$
このように、列毎の合計値に男性女性の割合をかける事で、期待値を求める事ができます。
同じようにして、他の期待値も求めます。
理論値
りんご | メロン | イチゴ | 合計 | |
男性 | $67×\frac{100}{220}=30.45$ | $78×\frac{100}{220}=35.45$ | $75×\frac{100}{220}=34.09$ | 100 |
女性 | $67×\frac{120}{220}=36.55$ | $78×\frac{120}{220}=42.55$ | $75×\frac{120}{220}=40.91$ | 120 |
合計 | 67 | 78 | 75 | 220 |
検定統計量を求める公式
理論値が求められたら、実際に検定統計量を求めていきます。
以下の式から求める事ができます。
$\chi^2=\frac{(実測値-理論値)^2}{理論値}の総和$
では実際に、実測値と理論値から検定統計量を求めましょう。
$\chi^2=\frac{(42-30.45)^2}{30.45}+\frac{(35-35.45)^2}{35.45}+\frac{(23-34.09)^2}{34.09}+\frac{(25-36.55)^2}{36.55}+\frac{(43-42.55)^2}{42.55}+\frac{(52-40.91)^2}{40.91}$
$=4.38+0.006+3.608+3.65+0.005+3.006=11.005$
この様にして、検定統計量$\chi^2=11.005$という事が分かりました。
③棄却域の設定
まずは、自由度を求めます。
自由度は以下の式で求められます。
$(行の数-1)×(列の数-1)$
今回の場合ですと、$(2-1)×(3-1)=2$ですので、自由度は$2$です。
カイ2乗分布の自由度2で、上側確率5%(0.95)に対応する値を分布表から探します。
0.005 | 0.025 | 0.05 | 0.95 | 0.975 | 0.995 | |
1 | 0.00 | 0.00 | 0.00 | 3.84 | 5.02 | 7.88 |
2 | 0.01 | 0.05 | 0.10 | 5.99 | 7.38 | 10.60 |
表から$5.99$という事が分かりました。
④帰無仮説が正しいか検証
検定統計量$\chi^2=11.005$は、$5.99$よりも大きいので棄却域に含まれます。
ですので、帰無仮説は棄却され、対立仮説が採択されます。
対立仮説:性別と好きな果物は独立ではない。
つまり、「好きな果物は男性と女性で比率が違う」という事が言えるのです。
練習問題
以下のカイ2乗分布表を用いて、問題を解きましょう。
0.005 | 0.025 | 0.05 | 0.95 | 0.975 | 0.995 | |
1 | 0.00 | 0.00 | 0.00 | 3.84 | 5.02 | 7.88 |
2 | 0.01 | 0.05 | 0.10 | 5.99 | 7.38 | 10.60 |
3 | 0.07 | 0.22 | 0.35 | 7.81 | 9.35 | 12.84 |
4 | 0.21 | 0.48 | 0.71 | 9.49 | 11.14 | 14.86 |
5 | 0.41 | 0.83 | 1.15 | 11.07 | 12.83 | 16.75 |
練習問題①
接種済み | 未接種 | 合計 | |
男性 | 85 | 35 | 120 |
女性 | 50 | 30 | 80 |
合計 | 135 | 65 | 200 |
答え:性別と接種率は関連性があるとは言えない
①帰無仮説と対立仮説をたてる
- 帰無仮説:性別と接種率は独立である
- 対立仮説:性別と接種率は独立ではない
②検定統計量を求める
まずは理論値を求めます。
接種済み | 未接種 | 合計 | |
男性 | $135×\frac{120}{200}=81$ | $65×\frac{120}{200}=39$ | 120 |
女性 | $135×\frac{80}{200}=54$ | $65×\frac{80}{200}=26$ | 80 |
合計 | 135 | 65 | 200 |
実測値と理論値が分かったので、検定統計量を求めていきます。
$\chi^2=\frac{(85-81)^2}{81}+\frac{(35-39)^2}{39}+\frac{(50-54)^2}{54}+\frac{(30-26)^2}{26}$
$=0.198+0.41+0.296+0.615=1.519$…検定統計量
③棄却域の設定
自由度は$(2-1)×(2-1)=1$です。
上側確率5%(0.95)に対応する値を分布表から探すと、$3.84$という事が分かります。
④帰無仮説が正しいか検証
検定統計量は$1.519$で、境界値は$3.84$という結果になりました。
棄却域に含まれないので、帰無仮説は棄却されません。
性別と接種率は独立ではないとは言えない、つまり、性別と接種率は関連性があるとは言えないことが分かりました。
Work illustrations by Storyset