この講座の対象者は以下の方を想定しています。
- 数学は中学レベルしか分からないけど統計検定2級に合格したい
- どの参考書を見ても数式だらけで理解できない
- 度数分布表って何?
- ヒストグラムってどうやって作るの?
この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。
今回は度数分布表とヒストグラムに関して解説します。
統計検定2級に受かるには必須の知識ですね!
データの集計と度数分布表の作成方法
Work illustrations by Storyset
データを分析する際に、まずはデータの集計と度数分布表の作成が必要となります。
まずはその点を解説していきます。
データの集計とは?
データの集計とは、与えられたデータを集めて整理することをいいます。集計することで、データの特徴や傾向を把握することができます。
例えば、ある学校の部活の参加人数を調べたところ、下記の結果になりました。
部活名 | 参加人数 |
バスケ部 | 42 |
サッカー部 | 48 |
バレーボール部 | 33 |
テニス部 | 22 |
柔道部 | 15 |
ハンドボール部 | 19 |
吹奏楽部 | 28 |
ダンス部 | 25 |
バトミントン部 | 21 |
このように、各部活毎の人数を集計し、合計しました。
このデータをもとに、データを一定の区間に分けて、その区間に含まれるデータの個数や割合を表にまとて度数分布表を作ってみましょう。
区間の幅や区間の数を調整することで、データの特徴をより詳しく分析することができますからね。
度数分布表の作成
では上記のデータを基に作成した度数分布表がコチラです。
階級 | 階級値 | 度数 |
---|---|---|
10以下 | 5 | 0 |
11-20 | 15.5 | 2 |
21-30 | 25.5 | 4 |
31-40 | 35.5 | 1 |
41-50 | 45.5 | 2 |
- データを小さい順に並べ替える。
- データの最小値から最大値まで、一定の区間(階級)を設定する。
- 各階級について、その区間に含まれるデータの個数(度数)を数える。
- 各階級の度数を表にまとめ、合計値を計算する。
この様な流れで行っています。
①データを小さい順に並べる
->[15,19,21,22,25,28,33,42,48]
この様にソートされます。
②一定の区間(階級)を設定する
今回は分かりやすくするために階級を10ごとに区切っています。
区切る幅はデータセット毎に変わります。
5~8で区切ることが多いです。
③区間に含まれるデータの個数(度数)を数える
次は↓のリストを地道に数えます。
[15,19,21,22,25,28,33,42,48]
「10以下は0で、11以上20以下は2で、、、」っと数えます。
実務では各種ツールを使って数えるので一個ずつ数える事はしません。
④表にまとめる
集計したデータを表にまとめたら完成です。
この際、階級値を追加する事も多いです。
では度数分布表の見方を簡単に説明します。
度数分布表の見方
階級 | 階級値 | 度数 |
---|---|---|
10以下 | 5 | 0 |
11-20 | 15.5 | 2 |
21-30 | 25.5 | 4 |
31-40 | 35.5 | 1 |
41-50 | 45.5 | 2 |
3列のそれぞれの見方をまとめます。
- 階級:データ全体を範囲ごとに区切った区間。(今回は10区切り)
- 階級値:各階級を代表する値。階級の真ん中の値です。
- 度数:各階級に含まれるデータの個数(頻度)
特に度数という単語を初めて聞く人も多いと思います。
重要な単語ですのでしっかりと覚えましょう!
相対度数分布表を作ろう
度数分布表に更に相対度数を追加した相対度数分布表というものもあります。
↓のようなものです。
階級 | 階級値 | 度数 | 相対度数 |
---|---|---|---|
10以下 | 5 | 0 | 0 |
11-20 | 15.5 | 2 | 0.22 |
21-30 | 25.5 | 4 | 0.44 |
31-40 | 35.5 | 1 | 0.11 |
41-50 | 45.5 | 2 | 0.22 |
相対度数は、その階級の度数を全体のデータ数(今回は9)で割ったもので、その階級が全体のデータセットに占める割合を示します。
階級が「10以下」ではそもそも度数がありませんので、相対度数分も0になります。
「11-20」では、度数が2で全体のデータ数が9なので、
単純に $2 / 9 = 0.22$ になります。
相対度数分布表は、データセット全体を視覚的に表すために使用され、異なるデータセットを比較する際にも役立ちます。相対度数分布表は、度数分布表と同様に、データをグループ化することで、データの傾向をより明確にすることができます。
ヒストグラムとは?
Work illustrations by Storyset
ヒストグラムは↓のようなものの事です。
上記の部活動の度数分布表をヒストグラム化しました。
ヒストグラムとは、横軸にデータの範囲を、縦軸にその範囲内に含まれるデータの数をとったグラフです。
データの分布状況を視覚的にわかりやすくしてくれます。
ヒストグラムの作成方法
度数分布表が出来ればヒストグラムは簡単に作れます。
- 度数分布表を作成する
- 度数分布表を基にヒストグラムを描く
ヒストグラムを描く際には各種ツールを使います。
余談ですが、例えばpythonで描く際は下記の様にします。
1 2 3 4 5 6 7 8 9 10 11 |
import matplotlib.pyplot as plt # データの用意 data = [15,19,21,22,25,28,33,42,48] # ヒストグラムの作成 plt.hist(data, bins=5, range=(0, 50), alpha=0.9) plt.title("Histogram") plt.xlabel("Value") plt.ylabel("Frequency") plt.show() |
ここまでの事は検定には出ませんので、覚えなくて大丈夫です。
階級の幅の決め方
部活の例では階級の幅を10にしていましたが、本当はデータの特性や目的に応じて決定します。
階級幅を広くしたり、狭くしたりすると↓のようなトレードオフの関係になる事を覚えておきましょう!
- 階級幅が狭い:分布の詳細な情報を得ることができますが、階級数が多くなり、分布の特徴が分かりにくくなる
- 階級幅が広い:、階級数が少なくなり、分布の特徴を簡単に把握することができますが、分布の詳細な情報を失う
ちなみに、この先も統計検定2級の範囲外ですが、階級幅を決めるには↓のような方法があります。
- タージェスの公式
- フリードマン・ダイアコニスの方法
- ライスの規則
詳しい解説はしませんが、気になる方は調べてみてください。
まとめ
今回は度数分布表とヒストグラムの解説を行いました。
度数分布表では↓の点が大事です。
- 階級:データ全体を範囲ごとに区切った区間。
- 階級値:各階級を代表する値。階級の真ん中の値です。
- 度数:各階級に含まれるデータの個数
また、どの様にして度数分布表が作成されるのか?その流れもしっかりと覚えておきましょう!