統計学 PR

平均値と中央値と最頻値【0から始める統計検定2級講座②】

記事内に商品プロモーションを含む場合があります

この講座の対象者は以下の方を想定しています。

  • 数学は中学レベルしか分からないけど統計検定2級に合格したい
  • どの参考書を見ても数式だらけで理解できない
  • 算術平均とか幾何平均って何?
  • 中央値と平均値は何が違うの?

この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。

今回は平均値、中央値、最頻値について詳しく解説していきます。
この概念は検定だけでは無く、実生活においても非常に重要です。
しっかり覚えましょう!

 

 

平均値の求め方

おそらく、平均値という言葉を聞いた事が無いって人はいないでしょう。
しかし、実は平均値にも様々な種類があるのです。

  • 算術平均
  • 加重平均
  • 幾何平均
  • 調和平均

こうなってくると初めて見たという人も多いでしょう。

似ているようで、求め方は全然違います。

 

ちなみに、平均値や中央値のように、複数のデータの特長を1つの数値に要約して表した物を代表値と言います。

 

算術平均の求め方

算術平均は、皆さんが今までに一番使っていた平均値です。
データの合計をデータの数で割って計算されるやつですね。
たとえば、データが[1、2、3]の場合、平均の求め方↓です。

 

$(1 + 2 + 3)/ 3 = 2$

 

これを数式で表すこの様になります。

$\bar{x} = \frac{\sum x_i}{n}$

えいせい
えいせい
初見では全く意味が分かりませんね、、

 

統計学を学ぶ上で、こういった記号だらけの数式がバンバン出てきます。
でも焦らなくて大丈夫です。表している意味は非常に簡単です。

 

 

記号の意味

記号の意味をまとめると↓になります。

  • $\bar{x}$:平均
  • $x_i$:データポイント。上記の例はでは[1、2、3]が入ります。
  • $n$:データポイントの数。[1、2、3]の場合は3ですね。

$x_i$に入る値はデータセットによって変わります。
$i$にはデータポイントの数だけ増殖するイメージです。
今回は[1, 2, 3]だったので、$x_1$には1が、$x_2$には2が、$x_3$には3が入ります。

そして、

 

 

加重平均の求め方

加重平均は、データの合計をデータポイントの重み付けの合計で割って計算されます。

例えばある学校の数学のテストのクラス毎の平均点と、クラスの人数が以下の表だったとします。

平均点 人数
A組 56 40
B組 72 30
C組 48 56

 

この学年の平均点を求めるには、算術平均を使って、
$(56+72+48)/3=58,66…$としたくなりますよね?

しかし、これだと間違いなのです。各クラスの生徒数が違うためです。

一度各クラスの平均点×人数をする必要があります。

 

$A組=56×40=2240$

$B組=72×30=2160$

$C組=48×56=2688$

 

これを合計し、全クラスの人数の126で割る事で正しい平均点を求められるのです。

実際に求めると以下のようになります。

 

$\bar{x} = \frac{56 \times 40 + 72 \times 30 + 48 \times 56}{40 + 30 + 56} = 56.25$

 

この様にして求まります。
大事なポイントとしては、この場合生徒数の(40, 30, 56)は重みと言い$w_i$で表します。

 

加重平均を数式で表すとこの様になります。

$\bar{x} = \frac{\sum w_i x_i}{\sum w_i}$

何て事はありませんね。$w_i$と$x_i$で各クラスの人数×クラスの平均としている事を表しています。

 

今回のように、カテゴライズされた後の平均値があると簡単に算術平均で全体平均を求めたくなりますが、それだと間違ってしまいます。
しっかりデータの背景を理解し、算術平均・加重平均を使い分ける必要があります。

 

 

幾何平均の求め方

幾何平均は、成長率や割合などのデータの平均を求めるためによく使用されます。
例えば、ある会社の年間売上額が以下の通りだったとします。(単位:千円)

1年目の売上 2年目の売上 3年目の売上
売上額 1,000 1,100 1,320
上昇率(前年比) 10% 20%

 

3年目の売上は計算すると以下の様になります。

$1000×1.1×1.2=1320$

 

では成長率を平均してから($(1.1+1.2)/2=1.15$)、1年目の売上にその平均の値を2回掛けたら3年目の売上になると思いますよね?
しかしこれが間違いなのです。

$1000×1.5×1.5=1322.5$

このように、若干のずれが生じてしまうのです。

 

こんな時に使うのが幾何平均なのです。

 

数式で表すと以下の様になります。

$G=\sqrt[n]{\prod_{i=1}^n x_i}$

ここで、$G$は幾何平均、$∏$は積、$x_i$はデータポイントです。

 

 

しかし、この数式だと少し難しいですね。
分かりやすくしたのが以下の数式です。

$\bar{x_g} = \sqrt[n]{a_1×a_2…×a_n}$

 

 

実際に幾何平均を求めてみる

この式を使って、先ほどの会社の上昇率の幾何平均を求めてみましょう。
nには2年分の上昇率なので2が入ります。
aには各年の上昇率が入ります。

$\bar{x_g} = \sqrt[2]{1.1×1.2}$

これを計算すると、

$\bar{x_g} = \sqrt[2]{1.32}$

$\bar{x_g} = 1.1489$ ←これが答え

 

つまり、年間の成長率の幾何平均は14.89%となります。

 

 

ちなみに元のデータ個数が3個の時は下記の式になります。

$\bar{x_g} = \sqrt[3]{a_1×a_2×a_3}$

 

 

そもそも$\sqrt[3]{a}$が良く分からないという人の為に解説すると、
$\sqrt[3]{a}$は3乗すると$a$になる数を表し、$a$の立方根(3乗根)といいます。

 

例えば、$\sqrt[3]{8}$は2を3回掛けると8になりますので、√をとると2になります。

 

また、例題の$\sqrt[2]{a}$の場合、2を省略して、$\sqrt[]{a}$と書きます。

 

 

調和平均の求め方

調和平均は、速度や生産性などのように比率として表示される数の平均値を算出するときに用いられる算式であるため、速度の平均を計算するなど、さまざまな場面で使用できます。

以下の例題をもとに考えてみましょう。

 

A君は家から職場まで、行きは時速60kmで車を運転し、帰りは時速40kmで運転しました。
この場合、平均速度は何kmでしょう?

この様な問題があると、$(60+40)/2=50$としたくなりますが、これは間違いです。
こんな時に使うのが調和平均です。

えいせい
えいせい
帰りは仕事で疲れたのかスピードが落ちてますねwww

 

 

調和平均の数式

$H = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}$

これに当てはめて例題を考えましょう。

$n$には行きと帰りの分の2が入り、$x_1$には行きのスピード60、$x_2$には帰りのスピードの40が入ります。

 

$H = \frac{2}{\frac{1}{60} + \frac{1}{40}} = \frac{2}{\frac{2}{120} + \frac{3}{120}} = \frac{2}{\frac{5}{120}} = \frac{2×120}{5} = \frac{240}{5} = 48$

結果、48kmという事が分かりましたね!
これが調和平均です。

 

 

中央値の求め方

中央値は、データセットの中央に位置する値です。データが小さい順に並べたときに、ちょうど中央に位置する値です。
データセットに偶数個の要素がある場合、中央値は中央の 2 つの要素の平均です。

 

奇数個と偶数個の場合の求め方

例えば、以下の様な奇数個のデータセットの例をみてみましょう。

$[1, 2, 3, 4, 5]$

この場合は単純に真ん中の3が中央値になります。

 

 

続いて偶数個の場合をみてみましょう。

$[1, 2, 3, 4, 5, 6]$

この場合は真ん中にある3と4の平均である$3.5$が中央値になります。

シンプルで分かりやすいですね!

 

 

中央値のメリット

中央値は平均値と似ている値になりますが、算出方法が全く違います。
そのため、中央値には大きなメリットがあります。それは、

外れ値の影響を受けにくい事です。

 

ちなみに外れ値とは、データセットの他の値とは大きく異なる値です。
例えばある社会人5人の年収が以下の表だったとします。

年収
A君 450万
B君 560万
C君 480万
D君 500万
E君 1,800万

この様な場合、E君の1800万という数字は他の値とは大きく事なっているので、外れ値となります。

これの何が悪いのかとなると、この5人で年収の平均値を求めると758万となり、明らかに高い数字となってしまいます。

しかし、中央値で求めるとD君の500万と、非常に現実的な数値になるのです。

 

 

このように、データセットには外れ値が含まれているケースが非常に多いです。
その外れ値の影響をもろに受けてしまう様な時は、中央値の方を参照した方が良い場合があります。

 

 

最頻値の求め方

最頻値(モード)とは、データセットで最も頻繁に出現する値です。
データセットの各値の出現回数を数え、最も大きい出現回数を持つ値が最頻値です。

 

$[1, 2, 2, 2, 3, 4, 5, 5]$

↑このデータセットの場合、2が3回で一番出現回数が多いので、最頻値は2になります。

最頻値は、データのばらつきを示すためによく使用される統計量です。
中央値よりも外れ値の影響を受けにくいため、データのばらつきを示すのに適している場合があります。

 

練習問題

①加重平均

A君は日本酒を500ml、サワーを100ml、泡盛を200ml飲んだ。それぞれのアルコール度数は日本酒:5%、サワー:9%、泡盛:12%である。A君が接種したアルコールの平均度数は何%か?

答え:7.25%

まずは接種したそれぞれのアルコールの量を求めます。飲んだ量×%ですね。
日本酒:$500×0.05=25ml$
サワー:$100×0.09=9ml$
泡盛:$200×0.12=24ml$
合計:$25+9+24=58ml$

続いて、飲んだ量の合計は単純に、$500+100+200=800ml$です。
これを基に次のように求められます。

$58/800=0.0725->7.25$

 

 

幾何平均

A君が投資を三年間行った。その利回りが1年目2%、2年目4%、3年目8%だった。3年間の平均利回りはいくつか?

答え:4%

以下の式で求める事ができます。

$G = (\sqrt[3]{2 \times 4 \times 8}) = \sqrt[3]{64}) = 4$

 

 

調和平均

A君とB君の走行速度はそれぞれ時速7kmと時速10kmです。2人の平均速度の調和平均を求めてください。

答え:8.235km

$H = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}$

↑の公式に当てはめるんでしたね!

$H = \frac{2}{\frac{1}{7} + \frac{1}{10}}=\frac{2}{\frac{17}{70}}=\frac{2×70}{17}=8.235….$

 

 

中央値と最頻値

データセット {1, 2, 3, 3, 3, 4, 5, 6, 7, 8} の中央値と最頻値を求めてくださ。

答え:中央値3.5、最頻値3

まずデータが偶数個あるため、真ん中にある3と4の平均の3.5が中央値になります。
3が出現回数が一番多いので、最頻値は3になります。

 

 

 

 

 

まとめ

今回は代表値の一つである各平均値について学びました。

  • 算術平均
  • 加重平均
  • 幾何平均
  • 調和平均

また、中央値最頻値も学びましたね!

ここら辺の単語を初めて聞いた人も多いと思います。
統計検定ではバンバン出てくる単語ですので、しっかりと覚えておきましょう!

 

 

箱ひげ図の見方と四分位数【0から始める統計検定2級講座③】この講座の対象者は以下の方を想定しています。 数学は中学レベルしか分からないけど統計検定2級に合格したい どの参考書...

Work illustrations by Storyset

あなたにおススメの記事