統計学 PR

母比率の信頼区間とは?【0から始める統計検定2級講座㉔】

記事内に商品プロモーションを含む場合があります

この講座の対象者は以下の方を想定しています。

  • 数学は中学レベルしか分からないけど統計検定2級に合格したい
  • どの参考書を見ても数式だらけで理解できない
  • 母比率の推定ってどうやるの?

この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。

今回は母比率の信頼区間です。
前回までは平均の推定を行っていましたが、今回は比率に着目します。

 

 

母比率の推定とは?

母平均の推定のように、母比率に関しても標本比率から推定する事ができます。
そもそも比率とは、男女の比率であったり、血液型の比率など、割合の事です。

web領域でいえば、ECサイトにアクセスした人の中で実際に購入した人の比率であったり、広告のクリック率などもよく比率で表されます。

例えば、

全国の高校生3000人をランダムに選び、部活に加入しているか聞いたところ、2250人は加入していた。全国の高校生の部活加入率を95%信頼区間で推定せよ。

この様な問題が出ます。
まず標本比率と母比率の意味を理解しましょう。

  • 標本比率:今回の場合はランダムに選ばれた高校生3000人のうち、部活に加入している割合です。$\frac{2250}{3000}=0.75$ですので、75%です。
  • 母比率:全国の高校生の部活加入率

 

母比率の信頼区間の求め方

では実際に母比率の信頼区間を求めるにはどの様にすれば良いのでしょうか?

まず大事になってくるのが二項分布です。

二項分布の復習

二項分布の確率変数$X$は$B(n,p)$に従うことは前にやったと思います。
この$p$の部分が母比率なのです。

では母集団(全国の高校生)の中から1人を選んだとき、その生徒が部活に加入している確率が$p$で、加入していない確率が$1-p$になるのは大丈夫ですね?

そして、母集団から$n$人選んだとき、そのうち$k$人が部活に加入している確率は、↓の式で求められるのでした。

$P(X=k)={}_n C_kp^k(1-p)^{n-k}$

また確率変数の期待値と分散は↓でしたね。

  • $E(X)=np$
  • $V(X)=np(1-p)$

 

二項分布忘れちゃったという人はコチラからどうぞ!

 

母比率の95%信頼区間の求め方

また、$n$がじゅうぶんに大きいと、中心極限定理によって、$B(n, p)$は正規分布$N(np, np(1-p))$に近似できます。
そのため、$X$は95%の確率で以下の範囲に収まるのです。

$np-1.96\sqrt{np(1-p)} \leqq X \leqq np+1.96\sqrt{np(1-p)}$

標本比率を$\hat{p}$とおくと、$hat{p}=$2250(部活に加入している生徒)÷3000(ランダムに選ばれた生徒)で求める事ができます。

$\hat{p}=\frac{X}{n}$

 

そこで、上記の式の3辺を$n$で割ってみると、

$np-1.96\sqrt{np(1-p)} \leqq X \leqq np+1.96\sqrt{np(1-p)}$

->$\frac{np-1.96\sqrt{np(1-p)}}{n} \leqq \frac{X}{n} \leqq \frac{np+1.96\sqrt{np(1-p)}}{n}$

->$p-1.96\frac{\sqrt{np(1-p)}}{n} \leqq \hat{p} \leqq p+1.96\frac{\sqrt{np(1-p)}}{n}$

次に3辺から$p$と$\hat{p}$を引きます。

->$-\hat{p}-1.96\frac{\sqrt{np(1-p)}}{n} \leqq -p \leqq -\hat{p}+1.96\frac{\sqrt{np(1-p)}}{n}$

3辺に$-1$を掛けます。

->$\hat{p}+1.96\frac{\sqrt{np(1-p)}}{n} \geqq -p \geqq \hat{p}-1.96\frac{\sqrt{np(1-p)}}{n}$

そして、不等号を逆にします。

$\hat{p}-1.96\frac{\sqrt{np(1-p)}}{n} \leqq p \leqq \hat{p}+1.96\frac{\sqrt{np(1-p)}}{n}$

$\hat{p}-1.96\sqrt{\frac{p(1-p)}{n}} \leqq p \leqq \hat{p}+1.96\sqrt{\frac{p(1-p)}{n}}$

ここで、$\hat{p}$は$p$の一致推定量であり、$n$が大きい時にはほぼ$p$に一致するので、$\frac{\sqrt{p(1-p)}}{n}$の$p$を$\hat{p}$で置き換えます。

 

$\hat{p}-1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n} }\leqq p \leqq \hat{p}+1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$

この式を満たす$p$が、母比率の95%信頼区間となります。

えいせい
えいせい
途中の計算式が良く分からないという人もいると思いますが、そこは気にしなくてOKです。最後の公式だけ覚えておけば統計検定の問題を解く事ができます!

 

問題を解いてみよう

では実際に先ほどの問題を解いてみましょう。

全国の高校生3000人をランダムに選び、部活に加入しているか聞いたところ、2250人は加入していた。全国の高校生の部活加入率を95%信頼区間で推定せよ。

この問題文を整理すると以下の様になります。

  • $\hat{p}=\frac{2250}{3000}=0.75$
  • $n=3000$

これを先ほどの式に代入します。

$\hat{p}-1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n} }\leqq p \leqq \hat{p}+1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$

$0.75-1.96\sqrt{\frac{0.75(1-0.75)}{3000} }\leqq p \leqq 0.75+1.96\sqrt{\frac{0.75(1-0.75)}{3000}}$

これを解く事で、95%信頼区間を求める事ができます。

$0.735,,,  \leqq p \leqq 0.765,,,$ …答え

この様にして、全国の高校生の部活加入率は95%の確率で$0.735$から$0.765$の間である事が分かりました。

 

必要なサンプルサイズを求める

今回、部活の加入率の95%信頼区間を求める事ができましたが、信頼区間としては、

$0.765-0.735=0.03$

つまり、3%の幅があることが分かります。

この結果は3000人に調査した結果、得られた範囲でした。
しかし、場合によっては「信頼区間の幅は5%位で良いからもっと調査する人数を減らしたい」という場合もあるでしょう。

そんな時は、以下の式を使う事で求める事ができます。

$2×1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq 0.05$

$2×1.96\sqrt{\frac{0.75(1-0.75)}{n}} \leqq 0.05$

$2×1.96\sqrt{\frac{0.1875}{n}} \leqq 0.05$

$\sqrt{n} \geqq 2×1.96×\sqrt{0.1875}×\frac{1}{0.05}$

$\sqrt{n} \geqq 33.95$

$n \geqq 33.95^2=1152.6$…答え

 

このようにして、1153人以上に調査すれば良い事が分かりました。

 

事前に比率が分からない場合

上記の例では、事前に比率が分かっていましたが、場合によっては比率が分からない場合もあります。

そんな時は$\hat{p}=0.5$を使えばOKです。

なぜかというと、実際の$\hat{p}$がどのような数値であっても、$\hat{p}=0.5$よりも大きくなる事はないからです。

たとえば、

街頭アンケートにて、車を所有しているかのアンケートを行いたい。
母比率の95%信頼区間の幅を5%以下に抑えたい場合、最低何人の調査を行う必要があるか求めよ。

この様な問題を考えます。
事前に比率は分かっていないので、$\hat{p}=0.5$を使います。

 

$2×1.96\sqrt{\frac{0.5(1-0.5)}{n}} \leqq 0.05$

$2×1.96\sqrt{\frac{0.25}{n}} \leqq 0.05$

$\sqrt{n} \geqq 2×1.96×\sqrt{0.25}×\frac{1}{0.05}$

$\sqrt{n} \geqq 39.2$

$n \geqq 33.95^2=1536.64$

このようにして、1537人以上必要だという事が分かりました。

 

 

練習問題

ある政党の支持率を調査するために街頭で500人にアンケートを行った。結果、200人が指示すると答えた。支持率を95%信頼区間で求めよ。

答え:$0.357 \leqq p \leqq 0.443 $

 

まず$\hat{p}$を求めます。
$\frac{200}{500}=0.4$

これを用いて以下の式で求める事ができます。

$0.4-1.96\sqrt{\frac{0.4(1-0.4)}{500} }\leqq p \leqq 0.4+1.96\sqrt{\frac{0.4(1-0.4)}{500}}$

$0.4-1.96\sqrt{\frac{0.4(1-0.4)}{500} }\leqq p \leqq 0.4+1.96\sqrt{\frac{0.4(1-0.4)}{500}}$

$0.357 \leqq p \leqq 0.443 $

あるアプリの使用率を調べるアンケートを行っていた。事前の調査では、使用率は15%だと言う事が分かっている。母比率の95%信頼区間の幅を5%にしたい場合、何人以上にアンケートをとる必要があるか求めよ。

答え:784人以上

 

$2×1.96\sqrt{\frac{0.15(1-0.15)}{n}} \leqq 0.05$

$2×1.96\sqrt{\frac{0.1275}{n}} \leqq 0.05$

$\sqrt{n} \geqq 2×1.96×\sqrt{0.1275}×\frac{1}{0.05}$

$\sqrt{n} \geqq 27.99$

$n \geqq 27.99^2=783.4$

 

 

Work illustrations by Storyset

あなたにおススメの記事