この講座の対象者は以下の方を想定しています。
- 数学は中学レベルしか分からないけど統計検定2級に合格したい
- どの参考書を見ても数式だらけで理解できない
- 分散分析ってなに?
- 要因とか因子って何のこと?
この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。
今回は、一元配置分散分析についてです。
また新しい用語が出てきて覚えることも多いので大変ですが、統計検定2級対策も終わりが見えてきていますので、頑張っていきましょう。
分散分析とは?
分散分析とは、3つ以上のグループ間の平均値の差を検定する統計的手法です。
分散分析では、観測データの分散を、各グループの平均値の差による分散(効果の分散)と、各グループ内の個体差による分散(誤差の分散)に分解します。
そして、効果の分散が誤差の分散よりも大きいかどうかを検定することで、複数のグループの平均値に有意な差があるかどうかを判断します。
分散分析では、グループごとのバラつきを、F分布を用いて検定します。
分散分析を行う理由
分散分析を行う理由としては、以下の理由が挙げられます。
- 複数の群間の平均値の差を検定することで、実験要因の効果を評価することができる。
- 群間の平均値の差が偶然によるものかどうかを判断することができる。
- 群間の平均値の差を数量的に評価することができる。
分散分析は、実験計画、マーケティング、経済学など、さまざまな分野で活用されています。
分散分析で覚えておくべき用語
分散分析を学ぶ上で、まずは各種用語をおさえておきましょう。
新しい単語がいくつかでてきます。
- 要因:データの値に変化を与える要素のことです。例えば、学校のテストなどでは、「自宅での学習時間」、「親の収入」、「出席率」などです。
- 因子:要因の中でも、特に母平均に差をもたらすと考えられる要因を指します。
- 水準:要因に含まれる分類(グループ)のことです。例えば、クラスがA組、B組、C組の学校のテストの場合、組が水準で、水準数は3です。
分散分析の種類
分散分析には主に以下の種類があります。
- 一元配置分散分析:1つの要因による平均値の差を検定する分散分析です。
- 多元配置分散分析:2つ以上の要因による平均値の差を検定する分散分析です。
今回の講座では、一元配置分散分析に絞って解説します。
一元配置分散分析の流れ
一元配置分散分析の特徴としては、要因が1つで、平均値の差を検定する分析ということは分かったと思いますが、具体的にどのように分析するのかはいまいち分からないと思います。
ですので、実際に分析の流れを見ていきましょう。
一元配置分散分析では差を見る
大事なポイントとしては、以下の3つの差の2乗が大事になってきます。
- $(全体の平均値-各データ)^2$の総和
- $(全体の平均値-因子の各水準の平均値)^2$の総和
- $(因子の各水準の平均値-各データ)^2$の総和
1つ目と2つ目は、全体の平均値を求めてから各値を引けば求めることができます。
また、3つ目に関しては、
$因子の各水準の平均値-各データ=(全体の平均値-因子の各水準の平均値)-(因子の各水準の平均値-各データ)$
をすることで求めることができます。
一元配置分散分析の例題
A組、B組、C組から各3人のテスト結果をまとめたのが以下の表です。
点数の結果から、組毎の平均点に差があるのか見たいので、一元配置分散分析を行っていきます。
まずは3つの差を求めていきましょう。
1人目 | 2人目 | 3人目 | |
A組 | $58$ | $67$ | $63$ |
B組 | $72$ | $68$ | $66$ |
C組 | $82$ | $76$ | $78$ |
①全体の平均値-各データ
全体の平均値は$70$ですので、以下のようにして差を求めてから総和を出します。
1人目 | 2人目 | 3人目 | |
A組 | $(70-58)^2=144$ | $(70-67)^2=9$ | $(70-63)^2=49$ |
B組 | $(70-72)^2=4$ | $(70-68)^2=4$ | $(70-66)^2=16$ |
C組 | $(70-82)^2=144$ | $(70-76)^2=36$ | $(70-78)^2=64$ |
$144+9+49+4+4+16+144+36+64=470$
一つ目は470という事が分かりました。
②全体の平均値-因子の各水準の平均値
まずは各水準の平均値を求めます。
各水準の平均値とは、A組、B組、C組の平均値です。
平均値 | |
A組 | $(58+67+63)÷3=62.67$ |
B組 | $(72+68+66)÷3=68.67$ |
C組 | $(82+76+78)÷3=78.67$ |
各水準の平均値が分かりました。
続いて、
$(全体の平均値-各水準の平均値)^2×データ数$
を、A組、B組、C組で出し、総和を求めれば大丈夫です。
$(70-62.67)^2×3+(70-68.67)^2×3+(70-78.67)^2×3$
$=161.1867(A組)+5.3067(B組)+225.5067(C組)=392$
因子の各水準の平均値-各データ
$因子の各水準の平均値-各データ=(全体の平均値-因子の各水準の平均値)-(因子の各水準の平均値-各データ)$ですので、以下のようにして求めることができます。
$470-392.0001=78$
分散分析表の作り方
続いて、分散分析表を作成します。
これがなにかというと、以下のような表です。
平方和 | 自由度 | 平均平方 | F値 | |
要因 | (a) | |||
誤差 | (b) | |||
合計 | (c) |
まず、(a)~(c)に入る値としては、さきほど求めた
- $(a)=②(全体の平均値-因子の各水準の平均値)^2の総和=392$
- $(b)=③(因子の各水準の平均値-各データ)^2の総和=78$
- $(c)=①(全体の平均値-各データ)^2の総和=470$
が入りますので、↓になります。
平方和 | 自由度 | 平均平方 | F値 | |
要因 | 392 | |||
誤差 | 78 | |||
合計 | 470 |
自由度を求める
続いて自由度を求めます。
各自由度は以下のように求めます。
- $要因の自由度:「要因の水準数(今回はクラスの数)ー1」なので、3-1=2$
- $誤差の自由度:「合計の自由度ー要因の自由度」なので、8-2=6$
- $合計の自由度:「全データ数ー1」なので、9-1=8$
平方和 | 自由度 | 平均平方 | F値 | |
要因 | 392 | 2 | ||
誤差 | 78 | 6 | ||
合計 | 470 | 8 |
平均平方を求める
次は平均平方を求めます。
求め方は簡単で、「$平均平方=平方和÷自由度$」で求めることができます。
また、要因と誤差のみを求めます。
- 要因:$392÷2=196$
- 誤差:$78÷6=13$
平方和 | 自由度 | 平均平方 | F値 | |
要因 | 392 | 2 | 196 | |
誤差 | 78 | 6 | 13 | |
合計 | 470 | 8 |
F値を求める
F値を求めるには以下の式から求めることができます。
$F=\frac{s_1^2}{s_2^2}=\frac{要因の平均平方}{誤差の平均平方}$
単純に上で求めた要因の平均平方÷誤差の平均平方をすれば良いだけですので、簡単ですね。
$F=196÷13=15.08$
平方和 | 自由度 | 平均平方 | F値 | |
要因 | 392 | 2 | 196 | 15.08 |
誤差 | 78 | 6 | 13 | |
合計 | 470 | 8 |
検定を行う
ここまでで必要な情報は全てそろいました。
それらをもとに検定を行います。
検定には、以下を使います。
- F分布
- 片側検定
- 統計量F=15.08
- 自由度(2, 6)
そもそも分散分析では、誤差に対して、要因のばらつきが相対的に大きいかどうかの検定を行います。
大きい場合には帰無仮説が棄却され、対立仮説が採択されます。
ここら辺は仮説検定でやった流れです。
- 帰無仮説:要因による効果は有意とは言えない
- 対立仮説:要因による効果は有意
F分布表
1 | 2 | 3 | |
1 | 161.448 | 199.500 | 215.707 |
2 | 18.513 | 19.000 | 19.164 |
3 | 10.128 | 9.552 | 9.277 |
4 | 7.709 | 6.944 | 6.591 |
5 | 6.608 | 5.786 | 5.409 |
6 | 5.987 | 5.143 | 4.757 |
今回は有意水準5%で検定を行います。
F分布表から、「5.143」という事が分かりました。
統計量Fが15.08のために、
$5.143<15.08$
となり、帰無仮説が棄却され、対立仮説が採択されます。
対立仮説:要因による効果は有意
このような結果になりました。
つまり、「組によって母平均に差がある」という事が分かりました。
ひとつ注意点としては、各組のなかで母平均に差があることは分かりましたが、具体的にどこの組に差があるのか?までは分からないので注意してください。
一元配置分散分析の練習問題
①
平方和 | 自由度 | 平均平方 | F値 | |
要因 | (ア) | 4 | (ウ) | (オ) |
誤差 | 320 | (イ) | (エ) | |
合計 | 530 | 10 |
答え:
- (ア):$210$
- (イ):$6$
- (ウ):$52.5$
- (エ):$53.33$
- (オ):$0.99$
(ア)の求め方
$要因の平方和=合計の平方和ー誤差の平方和$ですので、
$(ア)=530-320=210$
(イ)の求め方
$誤差の自由度=合計の自由度ー要因の自由度$ですので、
$(イ)=10ー4$
$(イ)=6$
(ウ)の求め方
平均平方は$平均平方=平方和÷自由度$で求められるので、
$(ウ)=210÷4=52.5$
(エ)の求め方
同じく、
$(エ)=320÷6=53.33$
(オ)の求め方
F値は、$要因の平均平方÷誤差の平均平方$ですので、
$(オ)=52.5÷53.22=0.99$
Work illustrations by Storyset