母集団と標本とは？【0から始める統計検定2級講座⑳】

この講座の対象者は以下の方を想定しています。

数学は中学レベルしか分からないけど統計検定2級に合格したい
どの参考書を見ても数式だらけで理解できない
母平均ってなに？
標本って何のこと？

この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。

今回は統計学における重要な要素である、母集団と標本について詳しく解説していきます。

Contents

母集団と標本
標本の抽出方法
母平均と標本平均の関係
- 標本平均の公式
練習問題

母集団と標本

推測統計学を学ぶ上で、絶対に知っておかなければいけない用語があります。
それが母集団と標本です。

例えば、以下の状況を考えてください。

全国の高校生男子の平均身長を計測したい。
しかし、全員の身長を測るのは現実的ではないため、一部の高校に絞り身長の計測を行った。

この様な場合、本当は全国の高校生男子全員の身長を測って、平均を求めるのが一番ですが、実際には出来ないことも多いです。
ですので、一部の高校に絞り、測定を行っています。

このように、調査対象となるデータ全体を母集団といい、その中から抽出した一部のデータを標本と言います。

うえの場合ですと、

母集団：全国の高校生男子
標本：一部の高校生男子

このようになります。

また、もし全国の高校生男子の数が150万(母集団)だったとしたら、その数を母集団の大きさといい、標本のデータの個数を標本の大きさといいます。

それぞれの平均と分散と標準偏差

母集団と標本において、それぞれの平均や分散を意識する事は非常に重要になってきます。
母集団から抽出した標本だから、平均も分散も一緒になるんじゃないの？って思うかもしれません。

しかし、現実的にはその2つには差が生まれる事がほとんどですので、下記のように記号や用語が変わってきます。

母集団の場合

母平均：$μ$
母分散：$\sigma^2$
母標準偏差：$\sigma$

標本の場合

標本平均：$\bar{X}$
標本分散：$S^2$
標本標準偏差：$S$

えいせい

今後は問題文に「平均」や「分散」が出てきたとき、それが母集団なのか標本なのか意識する事が大切です。

標本の抽出

標本の抽出する際に、ランダムに選ぶ方法を無作為抽出といいます。
また、抽出方法には以下の2つがあります。

復元抽出法
非復元抽出法

まず復元抽出法ですが、これは文字通り、一度抽出された標本を母集団に戻すやり方です。
そのため、一度抽出された標本が再度抽出される事もあります。

非復元抽出方はその逆で、一度抽出された標本は戻しません。

両者の違いは、母集団が大きい時にはそもそも重複する可能性が低いのでそこまで気にする必要はありません。
母集団が小さい時には、考慮する必要があります。

サンプル数とサンプルサイズ

統計学ではサンプル数とサンプルサイズという言葉があります。
同じ意味かと思ってしまいがちですが、実際には違います。

「例えば、ある学校から10人の生徒を抽出してテストを受けてもらう調査を5回行いました。」

この場合は↓になります。

サンプル数：5
サンプルサイズ：10

このように、サンプル数は標本の人数や数の事です。
サンプルサイズは調査を行った回数や標本の大きさの事です。

標本の抽出方法

無作為抽出はランダムに抽出するため、非常に効果的な抽出方法ですが、現実的にはコストが掛かり過ぎてしまう場合もあります。

そんな時の為にいくつかの抽出方法がありますので、紹介しますね。

層化抽出法
クラスター抽出法
多段抽出法
系統抽出法
二相抽出法

層化抽出法

母集団をいくつかのグループに分け、各グループの中から無作為抽出する方法が層化抽出法です。

例えば、ECサイト利用者(母集団)をあらかじめいくつかのグループに分けます。(初回利用、2回目、3回目以上など)
各グループの中から無作為抽出します。

母集団の構成情報を事前に知って置くことで、層化抽出法が使えます。

グループ別の比較が行えたり、推定する精度が高くなると言ったメリットがあります。

クラスター抽出法(集落抽出法)

母集団をクラスター(小さな集団)に分けます。その分けられたクラスターの中から無作為抽出をします。
そして、選ばれたクラスターの全数調査を行うのがクラスター抽出法です。

例えば、高校生の学力テストする際に、高校単位をクラスターとみたて、無作為抽出します。
そして選ばれた高校生徒全員にテストを実施します。

偏差値の高い学校ばかり選ばれた時など、標本に偏りが出る可能性があります。
しかし、現実面ではコストをそこまでかけずに調査が出来るというメリットもあります。

えいせい

全国の高校生を無作為抽出して、その子たちだけにテストを受けさせるのは難しいですからね。

多段抽出法

母集団をグループ分けしてそこから無作為抽出していくつかのグループ分けをします。
そこから更にグループ分けをして無作為抽出する、というのを繰り返すのが多段抽出法です。

例えば、全国から都道府県を無作為抽出して選びます。
次に選ばれた中から市区町村を無作為抽出します。
そして、その中から10人を無作為抽出します。

この方法も、標本に偏りが生じる可能性がありますが、効率的に抽出する事ができます。

系統抽出法

母集団にインデックス(通し番号)を振ります。
1番目の対象を無作為抽出で選び、2番目以降は対象を一定の間隔で抽出する方法が系統抽出法です。

例えば、ある高校の全生徒に通し番号をふります。
最初の1人は無作為に選び、それ以降は5人間隔で標本を選びます。

二相抽出法

「層化抽出法を行いたいのに母集団の情報が全くない。年齢層も男女比も全く分からない！」
そんな時に使うのが二相抽出法です。

まず母集団から標本を抽出して、母集団の情報を取得します。
その情報をもとに層化抽出法を行います。

例えば、スポーツクラブの利用者100人に層化抽出法を用いたアンケートを行いたいとします。
まず、無作為抽出して男女比率を調べます。その結果男性:7割、女性:3割である事が分かりました。
次に、男性70人、女性30人を無作為抽出してアンケートを実施します。

大事なポイントとしては、ある程度のサンプルサイズが必要という事です。
サンプルサイズが小さいと標本に偏りが生じ、正しい結果が得られないという事に繋がります。

母平均と標本平均の関係

例えば、以下の場合、母平均と標本平均の値は違います。

ある学校でテストを行った。全生徒の平均点は75点であった。
また別に、生徒を20人無作為抽出してその中で平均点を求めることを3回繰り返した。
その結果、平均点は[72, 76, 70]であった。

この場合、母平均$μ$は75点であり、標本平均$\bar{X}$は[72, 76, 70]です。

このように、$μ$と$\bar{X}$は必ずしも一致するわけではありません。

標本平均の公式

しかし、母集団から大きさ$n$の標本を抽出し、標本平均$\bar{X}$を求める事を何度も繰り返し、平均と分散を求めると以下の事が言えます。

標本平均$\bar{X}$の平均$E(\bar{X})$は、母平均$μ$に等しい
- $E(\bar{X})=μ$
標本平均$\bar{X}$の分散$V(\bar{X})$は、母分散$÷n$に等しい
- $V(\bar{X})=\frac{\sigma^2}{n}$

ようは、1回2回の標本抽出では標本平均$\bar{X}$と母平均$μ$に差がでる可能性が高いですが、これを何度も繰り返し、標本平均の平均をとると

$\bar{X}＝μ$

となるのです。

また、標本の大きさ$n$が大きくなると、$\bar{X}$の分散$V(\bar{X})=\frac{\sigma^2}{n}$は0に近づきます。

練習問題

①

ある畑の人参の大きさを調べるために、無作為に30本抽出して平均をとるという作業を5回繰り返した。この場合のサンプル数とサンプルサイズはいくつになるか答えよ。

答え：サンプル数：5 サンプルサイズ：30

②

小学生の足のサイズを測る為に、全国からランダムに50校選び、その学校の全生徒の足のサイズを測った。この抽出方法は何というか？

答え：クラスター抽出法(集落抽出法)

二段抽出法と似ていますが、最後の対象者の選択方法が全数の場合はクラスター抽出法です。

Wor Storyset k illustrations by

データサイエンスデータサイエンティスト統計統計検定2級