統計学 PR

二元配置分散分析をやさしく解説【0から始める統計検定2級講座㊸】

記事内に商品プロモーションを含む場合があります

この講座の対象者は以下の方を想定しています。

  • 数学は中学レベルしか分からないけど統計検定2級に合格したい
  • どの参考書を見ても数式だらけで理解できない
  • 二元配置分散分析ってなに?
  • 一元配置分散分析と何が違うの?

この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。

今回は、二元配置分散分析についてです。
前回の講座で出てきた、一元配置分散分析の二元版です。
より深い分析が出来るようになっていますので、しっかりと理解していきましょう。

 

二元配置分散分析とは?

まずおさらいですが、一元配置分散分析は、グループ間の平均値に差があるのかを調べるものでした。
大事なこととして、要因は1つですので、一元となっています。

二元配置分散分析は要因が2つ以上

見たまんまですが、要因が2つ以上になると二元配置分散分析になります。

例えば、前回はクラス毎のテストの平均値に差があるかを検定しました。

1人目 2人目 3人目
A組 $58$ $67$ $63$
B組 $72$ $68$ $66$
C組 $82$ $76$ $78$

 

これにさらに、男女のカテゴリーを追加すると要因が2つになります。

1人目 2人目 3人目
A組男子 $58$ $67$ $63$
B組男子 $72$ $68$ $66$
C組男子 $82$ $76$ $78$
A組女子 $66$ $59$ $72$
B組女子 $70$ $66$ $68$
C組女子 $73$ $69$ $75$

要因が「組」と「性別」の2つになりましたね。
このように、要因が複数の場合が二元配置分散分析です。

 

二元配置分散分析の例題

では例題をもとに、深堀りしていきましょう。
上記の男女のテスト結果をもとにしていきます。

 

二元配置分散分析の分散分析表

大事なことは、データ全体の平均値に対して、要因の各水準の平均値のずれの量を見ることです。

一元配置分散分析と同じく、分散分析表を使いましょう。
下記の空欄を埋めていきます。

平方和 自由度 平均平方 F値
性別
組×性別
誤差
合計

今回は、要因が「組」と「性別」なのと、交互作用として「組×性別」が増えています。

 

交互作用とは?

この交互作用は、統計学や機械学習などで重要になっきます。
どういうものか、簡単に説明します。

交互作用とは、2つの因子が組み合わさることで初めて現れる効果のことです。

例えば、製品の価格(因子A)と製品の性能(因子B)から売上額を分析するとき、製品価格は売上に影響を与えますし、製品の性能も売上に影響を与えますよね?
しかし、製品の価格と土製品の性能の組み合わせによって、売上への影響が異なる場合、これが交互作用になります。

製品の性能が高ければ高いほど売れるというわけではなく、価格によって売上額は大きく変わるのは容易に想像できますよね?

このように、交互作用が有意である場合、2つの因子は独立ではなく、互いに影響し合っていることがわかります。
そのため、2つの因子の影響を正確に評価するためには、交互作用も考慮する必要があるのです。

平均値を求める

話しを戻しまして、分散分析表を埋めていきましょう。
まずは平均値を求めます。
今回は求める平均値は↓です。

  • $全体の平均値=69.33$
  • $組毎の平均値=A組:64.17、B組:68.33、C組:75.5$
  • $性別毎の平均値=男子:70、女子:68.67$
  • $組と性別毎の平均値=下記の表に記載$
A組 B組 C組
男子 $62.67$ $68.67$ $78.67$
女子 $65.67$ $68$ $72.33$

 

 

平方和を求める

続いて各種平方和を求めます。

合計の平方和

合計の平方和は、データ全体の平均値からの各データのズレを2乗したものの総和です。

$(58-69.33)^2+(67-69.33)^2+(63-69.33)^2+(72-69.33)^2+…(75-69.33)^2=658$

 

組の平方和

全体の平均値から、組の各水準の平均値のズレの2乗の総和です。

$(64.17-69.33)^2×6+(68.33-69.33)^2×6+(75.5-69.33)^2×6=159.75+6+228.41=394.16$

 

性別の平方和

全体の平均値から、性別の各水準の平均値のズレの2乗の総和です。

$(70-69.33)^2×9+(68.67-69.33)^2×9=4.04+3.92=7.96$

 

組×性別の平方和

全体の平均値から、組×性別の平均のズレの2乗の総和を求めます。
次に、その求めた値から組の平方和と性別の平方和の値を引けば求めることができます。

$(62.67-69.33)^2×3+(68.67-69.33)^2×3+(78.67-69.33)^2×3+(65.67-69.33)^2×3+(68-69.33)^2×3+(72.33-69.33)^2×3$

$=133.07+1.31+261.7+40.19+5.31+27=468.58$

 

次に、この値から組の平方和と性別の平方和を引きます。

$468.58-394.16-7.96=66.46$

 

誤差の平方和

「合計の平方和」から、「組の平方和」、「性別の平方和」、「組×性別の平方和」を引いた値になります。

$658-394.16-7.96-66.46=189.42$

 

以上の結果をまとめると、分散分析表は↓になります。

平方和 自由度 平均平方 F値
$394.16$
性別 $7.96$
組×性別 $66.46$
誤差 $189.42$
合計 $658$

 

 

自由度を求める

続いて自由度を求めます。

  • 合計の自由度:$すべてのデータの個数-1$
    • $18-1=17$
  • 組の自由度:$組の水準数-1$
    • $3-1=2$
  • 性別の自由度:$性別の水準数-1$
    • $2-1=1$
  • 組×性別の自由度:$組の自由度×性別の自由度$
    • $2×1=2$
  • 誤差の自由度:$合計の自由度-組の自由度-性別の自由度-組×性別の自由度$
    • $17-2-1-2=12$

 

以上の結果をまとめると、分散分析表は↓になります。

平方和 自由度 平均平方 F値
$394.16$ $2$
性別 $7.96$ $1$
組×性別 $66.46$ $2$
誤差 $189.42$ $12$
合計 $658$ $17$

 

 

平均平方を求める

平均平方は$平方和÷自由度$で求められるのでしたね。
全体以外の平均平方を求めます。

  • 組の平均平方:$394.16÷2=197.08$
  • 性別の平均平方:$7.96÷1=7.96$
  • 組×性別の平均平方:$66.46÷2=33.23$
  • 誤差の平均平方::$189.42÷12=15.79$
平方和 自由度 平均平方 F値
$394.16$ $2$ $197.08$
性別 $7.96$ $1$ $7.96$
組×性別 $66.46$ $2$ $33.23$
誤差 $189.42$ $12$ $15.79$
合計 $658$ $17$

 

 

F値を求める

F値は$各要因の平均平方÷誤差の平均平方$で求めることができます。

  • 組のF値:$197.08÷15.79=12.48$
  • 性別のF値:$7.96÷15.79=0.5$
  • 組×性別のF値:$33.23÷15.79=2.1$

 

最終的な分散分析表は↓になります。

平方和 自由度 平均平方 F値
$394.16$ $2$ $197.08$ $12.48$
性別 $7.96$ $1$ $7.96$ $0.5$
組×性別 $66.46$ $2$ $33.23$ $2.1$
誤差 $189.42$ $12$ $15.79$
合計 $658$ $17$

 

 

 

分散分析表から結果を導く

最後に、作成した分散分析表から結果を見ていきます。
二元配置分散分析では、データ全体の平均値から、各要因の水準の平均値とのズレが大きいかを検定するのでしたね!

帰無仮説と対立仮説は↓になります。

  • 帰無仮説:要因による効果は有意とは言えない
  • 対立仮説:要因による効果は有意

 

F分布の自由度

分散分析では、F分布の片側検定だということは前回の講座でやりましたね。
今回も有意水準5%で検定します。

まず自由度ですが、各自由度は↓のように、$(各要因の自由度、誤差の自由度)$です。

  • 組の自由度:$(2, 12)$
  • 性別の自由度:$(1, 12)$
  • 組×性別の自由度:$(2, 12)$

 

 

境界値を求める

各要因のF分布の自由度が分かったので、F分布表から対応する境界値を探します。

F分布表

1 2
11 $4.84$ $3.98$
12 $4.75$ $3.89$
13 $4.67$ $3.81$
  • 組の自由度:$3.89$
  • 性別の自由度:$4.75$
  • 組×性別の自由度:$3.89$

 

これらの情報を表にまとめ、さきほど求めたF値と比較し、結果を見ましょう!

境界値 分散分析の結果のF値 検定結果
$3.89$ $12.48$ 帰無仮説を棄却
性別 $4.75$ $0.5$ 帰無仮説を棄却できない
組×性別 $3.89$ $2.1$ 帰無仮説を棄却できない

 

このような結果となりました。
「組」だけが帰無仮説を棄却しています。

「組」によって、テストの平均値に差があることは分かりましたが、「性別」、「組×性別(交互作用)」に関しては、平均値に差があるとは言えないという結果になりました。

 

 

 

 

Work illustrations by Storyset

あなたにおススメの記事
統計学

記述統計・推測統計とは?違いを簡単に解説します。データ分析を学ぶにはまずはこれから!

2023年4月15日
えいせい@データサイエンスブログ
ビックデータが当たり前になった現在社会では、いかにデータを分析するのか? いかに数字をベースに課題解決を行うのか? そのようなスキルが非 …