テューキーの探索的データ解析について(その3)

第2章に登場するのは5数要約 (5-number summary) と箱ひげ図 (box-and-whisker

plot) です。まず、5数要約について、以下のソフトウェアシステムの構成要素毎の詳細

設計レビュー工数(人時)を使って説明します。

一番左の列がレビュー工数のデータです。その右が小さいもの順につけた順位で、その右

が逆に大きいもの順につけた順位です。一番右の列が昇順ランクと降順ランクの小さい方

をとった「深さ」になります。このデータを、5数要約の基本形で表現すると、次のよう

になります。

#13はデータの件数です。下向きの箱の中に入っている5つの数字が5数ということにな

ります。 小さい方から数えても大きい方から数えても同じ7という順位になるのが中央

値 (median) です。順位の最小値1と最大値13を足して2で割っても同じ答えは出てき

ます。5数要約では、M7(Medianは深さ7)の右、下向きの箱の上部に88と書きま

す。

中央値の考え方を延長し、中央値と最小値の真ん中のデータを求めます。深さから計算す

ると(1+7)/2=4となり、28.9ということが分かります。中央値と最大値の真

ん中のデータも深さ4となり、222ということが分かります。この二つのデータをヒン

ジ (hinge) と言います。5数要約ではH4 (Hingeは深さ4)の右に小さい順に書きます。

最後に、深さ1の最小値と最大値を書いて、5数要約は完成します。

5数要約では、外れ値に関するルールと表記法も定めています。

・「H幅 (H-spread)」=二つのヒンジの差

・「ステップ (step)」= 1.5×H幅

・「内壁 (inner fences)」:ヒンジの1ステップ外側

つまり、内壁は二つあり一つは、最大値側のヒンジ+ステップ

もう一つは、最小値側のヒンジ-ステップ

・「外壁 (outer fences)」:ヒンジの2ステップ外側

つまり、外壁も二つあり一つは、最大値側のヒンジ+ 2×ステップ

もう一つは、最小値側のヒンジ- 2×ステップ

としたときに、

◇ 内壁の内側にあるデータの最大値と最小値を内壁隣接値 (adjacent)

◇ 内壁と外壁の間にあるデータを外れ値 (outside)

◇外壁の外側にあるデータを度外れ値 (far out)

と定めています。このルールに従って、レビュー工数のデータでそれぞれを求めてみると

以下のようになります。

・H幅=222-28.9=193.1

・ステップ=1.5×193.1=289.65

・内壁の最大値側:222+289.65=511.65

・内壁の最小値側:28.9-289.65=-260.75

・外壁の最大値側:222+2×289.65=801.3

・外壁の最小値側:28.9-2×289.65=-550.4

◇内壁隣接値:12, 325.6

◇外れ値:702.6

◇度外れ値:なし

5数要約の基本形に、内壁、外壁、内壁隣接値、外れ値等を書き加えた表記法が以下です。

これらのデータが揃うと箱ひげ図が描けます。箱ひげ図は二つのヒンジを上辺、下辺とす

る箱の中に、中央値を描き、上辺、下辺から内壁隣接値までをひげのような線で結んだ図

です。以下に、上記データを使って箱ひげ図の例を示します。箱から伸びた上下のひげの

末端にある黒い ▬ が内壁隣接値で、赤い ▬ が中央値、青い ● が外れ値です。

今回は、5数要約と箱ひげ図の紹介をしました。なお、EXCELのQUARTILE関数により

計算される四分位数は、データ件数にもよりますが、テューキーのヒンジの計算結果と多

少異なります。EXCELやRが普及したこともあって、最近の書籍では、箱ひげ図の上辺

や下辺の定義にはEXCEL等による四分位数を使うことが多いようです。

 

avatar

宮崎 幸生 について

みやざき ゆきお
プロセス&メジャメント 代表
■1973年、富士通株式会社入社。アプリケーションパッケージの開発に従事。1976年、黎明期のソフトウェアエンジニアリングの研究・開発に取り組む。以降、ソフトウェアエンジニアリングの中でもソフトウェア測定と分析を中心とした管理手法の分野に一貫して従事。ソフトウェア開発に関わるデータの実態を熟知した上で、1980年代から、ソフトウェアデータの分析にロバストな統計手法を取り入れる。1994年には独自にロバストな回帰分析手法(r最小二乗法)を考案した。2001年、ソフトウェアの見積モデルに関する研究で博士号を取得。2002年、CMMリードアセッサ、続いてCMMIリードアプレイザの資格を取得。現在は、富士通クオリティ・ラボ株式会社と契約をしながら、富士通および関係会社でのデータ分析やプロセス改善に関する教育、講演、コンサルティングを行うと共に、JUAS(日本情報システム・ユーザー協会)、ソフト・リサーチ・センター、日本テクノセンターなどでのセミナーを行っている。
■主な論文/書籍:
“COCOMO Evaluation and Tailoring”, International Conference on Software Engineering(ICSE), 1985
“Software Metrics Using Deviation Value”, ICSE, 1987
“Robust Regression for Developing Software Estimation Models”, The Journal of Systems and Software, 1994
「ソフトウェア品質保証システムの構築と実践」、ソフト・リサーチ・センター、2008
■資格: CMMI® リードアプレイザ、博士(工学)
カテゴリー: 測定と分析, 未分類 タグ: , , , , パーマリンク

コメントを残す