統計学 PR

箱ひげ図の見方と四分位数【0から始める統計検定2級講座③】

記事内に商品プロモーションを含む場合があります

この講座の対象者は以下の方を想定しています。

  • 数学は中学レベルしか分からないけど統計検定2級に合格したい
  • どの参考書を見ても数式だらけで理解できない
  • 箱ひげ図って何?
  • 四分位数が良く分からない?

この講座では特に、0の状態から統計検定2級に合格したいって方のために、分かりやすさをモットーに解説していきます。

今回は箱ひげ図について、どこよりも分かりやすく解説していきます。

 

箱ひげ図とは?

初めて聞いた人も多いでしょう。
まず箱ひげ図とは以下の様な物を指します。

[1, 2, 3, 3, 3, 4, 5, 6, 7, 8]このデータセットをプロットしています。

箱ひげ図は、データセットの分布を視覚化するのに役立つ統計グラフです。
データセットの中央値、四分位数、および外れ値を表示するために使用されます。

箱ひげ図は、データを簡単に比較したり、データの異常を特定したりするために使用されます。

えいせい
えいせい
箱ひげ、、、ワンピースに出てきそうな名前ですねw

 

 

箱ひげ図の見方

箱ひげ図という名前だけに、まずは以下のポイントを抑えておきましょう。

  • 箱:真ん中の箱の部分
  • ひげ:上下に伸びる黒い線

単純で分かりやすいですね!
また、ひげの下端は最小値の1を示しており、上端は最大値の8を示しています。

しかし、外れ値検出する場合はこの表記ルールが変わりますので注意してください。(詳しくは後述します。)

 

 

四分位数とは?

箱ひげ図を読み解く上で、絶対に必要なのが四分位数です。

四分位数は、データを小さい順に並べたときに、データの数で4等分した時の区切り値です。

4等分すると3つの区切りの値が得られ、小さいほうから以下の様に呼びます。

  • 第一四分位数:25パーセンタイル
  • 第二四分位数:50パーセンタイル(中央値)
  • 第三四分位数:75パーセンタイル

また、75パーセンタイル(第三四分位数)から25パーセンタイル(第一四分位数)を引いた値を「四分位範囲」とよびます。

 

先ほどの箱ひげ図で表すと↓の様になります。

 

箱ひげ図は4つに区切れる

要は、第二四分位数(中央値)を中心に、4つのブロックにデータを区切ったのが箱ひげ図です。

大事なポイントとして、各ブロックに入っているデータの数は同じです。

しかし、ブロックごとにデータの大きさが違うのはデータのバラつきを表しています。
この箱ひげ図から得られる情報としては↓の物があります。

  • 第一四分位数と第二四分位数の間の第二ブロックは、箱がコンパクトな事からデータがまとまっている(ばらついていない)事が分かる
  • その他のブロックは大きさが同じなので、バラつき具合は似ている
  • 最小値が1で最大値は8
  • 四分位範囲に全体の半分のデータが入っている

 

 

 

外れ値検出する場合の箱ひげ図

箱ひげ図では外れ値があった場合、それを分かりやすくプロットする事ができます。
ようは、外れ値をひげの範囲外に○や×で表示してくれるのです。

 

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 38, 40]
例えば上記のデータセットをプロットした場合、38と40は外れ値であるため、↓の様に○で表示されます。

 

この様に表記する事で「外れ値がどれくらいあるのか?またその値はどれくらいなのか?」という点を視覚的に分かりやすくしてくれるので、重宝します。

 

また、この際重要になってくるのが、どこまでをひげの範囲とするか?です。
なんとなくで決めるわけにはいきません。

 

箱ひげ図のひげの範囲

簡単に説明すると以下の範囲です。
上限方向と下限方向の2つがあります。

  • 第一四分位数-1.5×四分位範囲
  • 第三四分位数+1.5×四分位範囲

この様に範囲を決める事ができます。
ちなみに1.5の数値は変わる事があります。
データセットによっては1.7にしたりと変化しますが、1.5が一般的です。

 

注意点としては、今回は外れ値以外での最大値が20まででしたのでひげが20までしか伸びていません。
もちろん下限もありますので、第一四分位数-1.5×四分位範囲よりも小さい値は外れ値となります。

詳しい数値の求め方は次のセクションで説明します。

 

 

 

箱ひげ図の作成方法

箱ひげ図を作成する際の流れです。

  1. データを昇順(小さい順)にソートする
  2. 第二四分位数(中央値)を求める
  3. 第一四分位数と第三四分位数を求める
  4. 箱ひげ図を描画する

下記の15個のデータセットを使い、描画してみましょう。

$[44, 47, 58, 42, 60, 22, 44, 52, 75, 51, 50, 65, 53, 54, 49]$

ソートする

まずはデータを昇順に並び替えます。

$[22, 42, 44, 44, 47, 49, 50, 51, 52, 53, 54, 58, 60, 65, 75]$

 

 

第二四分位数(中央値)を求める

 

[22, 42, 44, 44, 47, 49, 50, 51, 52, 53, 54, 58, 60, 65, 75]

 

今回は奇数個なので、単純に中央値である51になります。

偶数個の場合は、真ん中になる2つの値の平均値が中央値になるんでしたね!

 

 

 

第一四分位数と第三四分位数を求める

まずは第二四分位数(51)よりも数字が小さいグループと多きグループに分けます。

  • 小さいグループ:$[22, 42, 44, 44, 47, 49, 50]$
  • 大きいグループ:$[52, 53, 54, 58, 60, 65, 75]$

 

その中で先ほどと同じ様に、中央値を求めます。
それが第一四分位数と第三四分位数になります。

小さいグループ:$44$ ←第一四分位数
大きいグループ:$58$ ←第三四分位数

 

これで全ての四分位数が分かりましたね!

 

箱ひげ図を描画する

最後に描画して終了です。
基本的に描画は各種ツールを使用して描画します。
描画までは統計検定では出題されないので、安心してください。

ちなみにpythonでは下記のコードで描画できます。

えいせい
えいせい
無事に外れ値検出のある箱ひげ図ができましたね!

 

 

箱ひげ図の注意点

では最後に箱ひげ図の注意点を抑えておきましょう。

  • データの分散や歪みを視覚化することはできない
  • データの比較にも使用できるが、データが異なる尺度で測定されている場合は、正確に比較できない可能性がある
  • データが正規分布していない場合は、データの分布の形状を正確に表していない可能性がある

これらの注意点を認識しておけば、箱ひげ図はデータの分布を視覚化するための貴重なツールとなります。

 

 

 

練習問題

以下の図は、日本の五か所の気温のサンプルデータでを箱ひげ図で表したものである。
各問いに答えなさい。

第一問

  1. [21, 22, 22, 23, 23, 24, 24, 24, 25, 26]
  2. [24, 25, 25, 25, 26, 26, 26, 27, 27, 28]
  3. [22, 22, 23, 23, 24, 24, 25, 26, 26, 27]
  4. [18, 18, 19, 19, 20, 20, 20, 21, 22, 23]
  5. [24, 25, 26, 26, 27, 27, 27, 28, 28, 29]
①~⑤の中でTokyoの度数として正しいのどれか?

答え:

第二四分位数(中央値)に着目してみると簡単です。
中央値が24になるデータは③だけです。

 

第二問

  1. 平均気温が一番高いのは大阪である。
  2. 四分位範囲が一番大きいの北海道である。
  3. 福岡の第一四分位数は26である。
上記の中で正しいものを一つ選びなさい。

答え:

  1. 第二四分位数(中央値)が一番高いのは福岡です。
  2. 四分位範囲とは第三四分位数から第一四分位数を引いた範囲で、一番大きいのは視覚的にも東京です。
  3. その通りです。

 

 

分散と標準偏差とは?【0から始める統計検定2級講座④】この講座の対象者は以下の方を想定しています。 数学は中学レベルしか分からないけど統計検定2級に合格したい どの参考書...
Work illustrations by Storyset

あなたにおススメの記事