第2章に登場するのは5数要約 (5-number summary) と箱ひげ図 (box-and-whisker
plot) です。まず、5数要約について、以下のソフトウェアシステムの構成要素毎の詳細
設計レビュー工数(人時)を使って説明します。
一番左の列がレビュー工数のデータです。その右が小さいもの順につけた順位で、その右
が逆に大きいもの順につけた順位です。一番右の列が昇順ランクと降順ランクの小さい方
をとった「深さ」になります。このデータを、5数要約の基本形で表現すると、次のよう
になります。
#13はデータの件数です。下向きの箱の中に入っている5つの数字が5数ということにな
ります。 小さい方から数えても大きい方から数えても同じ7という順位になるのが中央
値 (median) です。順位の最小値1と最大値13を足して2で割っても同じ答えは出てき
ます。5数要約では、M7(Medianは深さ7)の右、下向きの箱の上部に88と書きま
す。
中央値の考え方を延長し、中央値と最小値の真ん中のデータを求めます。深さから計算す
ると(1+7)/2=4となり、28.9ということが分かります。中央値と最大値の真
ん中のデータも深さ4となり、222ということが分かります。この二つのデータをヒン
ジ (hinge) と言います。5数要約ではH4 (Hingeは深さ4)の右に小さい順に書きます。
最後に、深さ1の最小値と最大値を書いて、5数要約は完成します。
5数要約では、外れ値に関するルールと表記法も定めています。
・「H幅 (H-spread)」=二つのヒンジの差
・「ステップ (step)」= 1.5×H幅
・「内壁 (inner fences)」:ヒンジの1ステップ外側
つまり、内壁は二つあり一つは、最大値側のヒンジ+ステップ
もう一つは、最小値側のヒンジ-ステップ
・「外壁 (outer fences)」:ヒンジの2ステップ外側
つまり、外壁も二つあり一つは、最大値側のヒンジ+ 2×ステップ
もう一つは、最小値側のヒンジ- 2×ステップ
としたときに、
◇ 内壁の内側にあるデータの最大値と最小値を内壁隣接値 (adjacent)
◇ 内壁と外壁の間にあるデータを外れ値 (outside)
◇外壁の外側にあるデータを度外れ値 (far out)
と定めています。このルールに従って、レビュー工数のデータでそれぞれを求めてみると
以下のようになります。
・H幅=222-28.9=193.1
・ステップ=1.5×193.1=289.65
・内壁の最大値側:222+289.65=511.65
・内壁の最小値側:28.9-289.65=-260.75
・外壁の最大値側:222+2×289.65=801.3
・外壁の最小値側:28.9-2×289.65=-550.4
◇内壁隣接値:12, 325.6
◇外れ値:702.6
◇度外れ値:なし
5数要約の基本形に、内壁、外壁、内壁隣接値、外れ値等を書き加えた表記法が以下です。
これらのデータが揃うと箱ひげ図が描けます。箱ひげ図は二つのヒンジを上辺、下辺とす
る箱の中に、中央値を描き、上辺、下辺から内壁隣接値までをひげのような線で結んだ図
です。以下に、上記データを使って箱ひげ図の例を示します。箱から伸びた上下のひげの
末端にある黒い ▬ が内壁隣接値で、赤い ▬ が中央値、青い ● が外れ値です。
今回は、5数要約と箱ひげ図の紹介をしました。なお、EXCELのQUARTILE関数により
計算される四分位数は、データ件数にもよりますが、テューキーのヒンジの計算結果と多
少異なります。EXCELやRが普及したこともあって、最近の書籍では、箱ひげ図の上辺
や下辺の定義にはEXCEL等による四分位数を使うことが多いようです。