この講座の対象者は以下の方を想定しています。
- 数学は中学レベルしか分からないけど統計検定2級に合格したい
- どの参考書を見ても数式だらけで理解できない
- 仮説検定ってなに?
- 帰無仮説、対立仮説って初めて聞いた
この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。
今回の講座から新しいトピックの仮説検定について解説していきます。
統計検定でも非常に出題率の高い領域ですのでしっかりと自分のものにしていきましょう。
また、今回の講座から新しい単語が続々出てきますので、それも押さえていきましょう!
仮説検定とはなにか?
まず仮説検定とはどういった物かを説明します。
ちなみに単純に検定と言われる事もありますが、同じものを指しています。
仮説検定とは、
ある仮説に基づいて行った観察や実験の結果が、偶然の変動によるものではないかどうかを判断するものです。
たとえば、あるECサイトのクリック率が2.5%でしたが、画像を変えたところ2.7%になりました。
この結果は偶然と捉えるべきなのか、それとも画像を変更した事による効果なのかパッと見では分からないですよね?
それを判断するのが仮説検定なのです。
仮説検定の流れ
仮説検定を行う流れを簡単に説明すると以下の通りです。
- 仮説を立てる(帰無仮説と対立仮説)
- 検証する
- 結論を出す
それぞれを深堀りしていきましょう。
帰無仮説と対立仮説
まず仮説を立てていきます。
その時に大事なのが、帰無仮説と対立仮説です。
この単語を初めて聞いたという人も多いでしょう。
それぞれの意味としては下記になります。
- 帰無仮説$H_0$:主張したい事とは逆の仮説
- 対立仮説$H_1$:主張したい仮説
どっちがどっちかわからなくなるポイントですので覚えるまでは大変だと思います。
まだ、これだけの説明だとイマイチ分からないと思いますので、具体例を基に見ていきましょう。
あるジャンケンゲームアプリでジャンケンを100回したところ、勝ったのは35回だけだった。
(あいこの場合は決着がつくまで続けるものとする。)
まず、ジャンケンの勝率は50%のはずですが、実際には35%しか勝てませんでした。
この結果を受け、あなたはこれは「たまたまでは無くこのアプリはインチキだ!」と考えており、検定を行うこととしました。
そのため、まず帰無仮説と対立仮説を立てました。
- 帰無仮説:このジャンケンアプリの勝率は50%である
- 対立仮説:このジャンケンアプリの勝率は50%ではない
このように、あなたの主張である方が、対立仮説の「このジャンケンアプリの勝率は50%ではない」です。
逆に帰無仮説は棄却(正しくないので採用しない)したいと思っています。
背理法
ですので、対立仮説が正しいか検定すれば良いと思いがちですが、実際には違います。
帰無仮説を棄却する事で、対立仮説を成立させる事を狙うのです。
ここが統計学の難しい所です。
今回の場合ですと、帰無仮説である「このジャンケンアプリの勝率は50%である」を否定する事ができれば、本来の主張である、対立仮説の「このジャンケンアプリの勝率は50%ではない」を採択する事が出来るのです。
このように、「Aである」ことを証明するには「Aでないならば矛盾する」ことを示す証明方法を背理法と言います。
有意水準を決める
では帰無仮説を検証してみましょう~っといきたい所ですが、まだその前にやる事があります。
それが有意水準を決めることです。
有意水準とは、たまたま起こる確率を何%とするか、その水準です。
例えば5%に設定し、仮説検定を行います。
その結果、帰無仮説の起こる確率が5%以下と出たら、それはたまたまである事を否定するので、帰無仮説を棄却し対立仮説を成立させます。
大体は5%か1%にする事が多く、統計検定の試験でもほぼこのどちらかで出題されます。
今回は5%を採用しましょう!
ここまでを整理
まず整理すると、
- ジャンケンを100回したときに勝つ回数を$X$とする
- ジャンケンに勝つ確率は$\frac{1}{2}$
- 実際の勝率は$\frac{35}{100}$
- 有意水準:5%
です。
また$X$は二項分布$B(100, \frac{1}{2})$に従いますので、平均と分散は以下のようになります。(二項分布を忘れてしまったって人はコチラの講座を確認してください。)
- $E(X)=100×\frac{1}{2}=50$
- $V(X)=100×\frac{1}{2}×(1-\frac{1}{2})=25$
また、二項分布は$n$が大きければ、正規分布に近似するのでした。
ですので、ジャンケンを100回して勝つ回数は、平均$50$、分散$25$の正規分布に近似します。
検証するために確率変数$Z$を求める
次に確率変数$Z$を求めます。
以下の式から求められるのでした。
$Z=\frac{X-μ}{\sigma}$
$Z=\frac{35-50}{5}=3$
確率変数$Z$が$3$と分かったので、標準正規分布表から$a=3$に対応する値を見ます。
行が「3.0」で、列が「0.00」の値は0.4987でした。
※標準正規分布表一部抜粋
0.00 | 0.01 | 0.02 | 0.03 | |
3.0 | 0.4987 | 0.4987 | 0.4987 | 0.4988 |
ですので、$P(Z \geqq 3)$は$0.5-0.4987=0.0125=0.0013$という事が分かりました。
%で表すと、0.13%ですね!
結論を出す
最後に結論をだします。
今回ジャンケンゲームを100回やって35回しか勝てなかった場合、それが起こる確率は0.13%という事が分かりました。
これをどの様に受け取れば良いのかと言うと、2通りあります。
- 運悪く、滅多に起こらない事が起こってしまった
- 帰無仮説を棄却する
ここで大事になってくるのが、先ほど出てきた有意水準です。
今回は5%としていますので、5%以上の場合は、たまたま起こった結果であると結論付けし、5%以下の場合は滅多に起こらない事なので帰無仮説がおかしいとなります。
今回の場合は、0.13%と有意水準よりもはるかに低いので、帰無仮説が棄却されるのです。
そして帰無仮説が棄却されたことで、対立仮説を採択し、「このジャンケンアプリの勝率は50%ではない」と結論付けます。
帰無仮説が棄却されないパターン
上記の例では帰無仮説を棄却する事ができましたが、検証した結果、有意水準が5%以上のため帰無仮説が棄却されないパターンもあります。
その時の結果はどの様に受け止めれば良いのでしょうか?
「帰無仮説を棄却出来なかったので、帰無仮説が正しい(ジャンケンアプリの勝率は50%)」とするのが一般的に思えますが、実際は違います。
対立仮説を採択出来ないという事です。つまり、
「このジャンケンアプリの勝率は50%ではないとはいえない」
という程度にとどまります。
あくまで、帰無仮説を棄却出来なかったからと言って、帰無仮説が正しいとする事は出来ないのです。
第1種の誤りと第2種の誤り
仮説検定において大事なポイントとして、結論が間違ってしまうこともあるという事です。
有意水準を5%に設定したとしても、平均的には20回に1回は有意水準を下回る事がありますし、1%に設定しても100回に1回は下回ってしまいます。
めったにない事が起こってしまう事も当然あるのです。
それが、以下の2つです。
- 第1種の誤り
- 第2種の誤り
第1種の誤りとは
第1種の誤り:本当は帰無仮説が正しいのに、帰無仮説を棄却してしまい、間違っている対立仮説を採択してしまうこと。
先ほどの例だと、本当はジャンケンアプリの勝率は50%なのに、「ジャンケンアプリの勝率は50%である」という帰無仮説を間違って棄却していしまう事です。
第1種の誤りが生じる可能性は、設定した有意水準の値になります。
5%に設定したのなら、第1種の誤りが生じる可能性も5%になります。
第2種の誤りとは
第2種の誤り:本当は対立仮説が正しいのに、帰無仮説を棄却できず、対立仮説を採択できないこと。
先ほどの例だと、本当はジャンケンアプリの勝率は50%ではないのに、「ジャンケンアプリの勝率は50%である」という帰無仮説を棄却出来ない事です。
それぞれはトレードオフの関係にある
第1種・第2種の誤り両方の起こる確率を下げたいと思っても、2つを同時に下げる事はできません。
例えば、有意水準を5%から1%に下げ、第1種の誤り(間違って帰無仮説を棄却)が起こる確率を下げようと思うと、逆に第2種の誤り(対立仮説を採択出来ない)が起こる確率が上がります。
第2種の誤りが起こる確率を下げると、今度は第1種の誤りが起こる確率が上がるのです。
このように、それぞれはトレードオフの関係にあるのです。
Work illustrations by Storyset