テューキーの探索的データ解析について(その2)

前回はヒストグラムの説明をしました。今回は、いよいよ探索的データ解析の中身に入っていきます。第1章に登場するのが幹葉図 (stem-and-leaf) です。幹葉図は、カンヨウズと読んだりミキハズと読んだりするようです。前回のヒストグラムの説明で使った、以下のソフトウェアシステムの構成要素毎の詳細設計書枚数で、幹葉図を描いてみます。

285, 38, 321, 1060, 501, 1080, 136, 265, 106, 986, 45, 471, 422, 185, 1072, 269,

889, 2453, 82

幹葉図を描くのにExcelは不要で、単に次のようにデータを並べればよいのです。

**には00~99の数字が入ります。例えば1**は、100枚~199枚というヒストグラムで言えば一つの区間を意味します。同様に、***には000~999の数字が入ります。幹葉図の作り方は、データの最小値と最大値を考慮し、まず、縦線の左側に0**から2***までの区間を作っておきます。このようにしておけば、後は数字が並んでいる順 (285, 38, 321, ・・・, 82) に各区間にデータの下2桁(1000以上になったら下3桁)をコンマで区切って描いていけばよいのです。こうすることで、データを大きさの順に並べ変えるといったことはしなくても、間違えることは少なくなります。

以下は、前回のヒストグラムです。

お分かりのように、ヒストグラムを縦にするとほぼ幹葉図になります。ヒストグラムの各棒の長さが、幹葉図の縦線の右側の数字の数になることが分かります。ほぼ幹葉図と書いたのは、この幹葉図だとヒストグラムに比べて外れ値は一見分かりにくくなるからです。幹葉図の場合には、*の数に気を付けなければなりません。9**までは区間の幅は100なのですが、1***からは区間の幅が1000になるのです。したがって、ヒストグラムと同じイメージを保ちたければ、区間の幅を10**, 11**, 12** ・・・と最後まで100で統一すればよいのです。かなりのスペースはとることになりますが、ヒストグラムと同様の図にすることができます。

ヒストグラムだと元のデータの正確な値は分かりませんが、幹葉図なら分かります。並べ方を工夫しただけで、元のデータをそのまま描いたのが幹葉図なのです。この単純な発想の素晴らしさには脱帽です。

ヒストグラムのときに悩む区間の幅についても、幹葉図であれば悩むことはありません。10とか100といった幅で描くことになるのです。しかし、10や100だと粗過ぎて分布がよく分からない、という場合には、英語民族の発想ではありますが、次のようなアイディアも書かれています。

# :0と1        注)参照

t :2 (two) と3 (three)

f :4 (four) と5 (five)

s :6 (six) と7 (seven)

・:8と9

例えば、以下のようなデータがあったとします。

27, 28, 15, 23, 14, 12, 12, 15, 16, 11, 22, 14, 15, 13, 10

これを、以下の幹葉図にします。

これでは分布がよく分からないというときに、次のようにします。

これで、分布が少し見えてくるというわけです。

探索的データ解析には、この他にも様々な表現方法を使った幹葉図が、これでもかというほど出てきます。ちょっとした工夫で、どんなデータにでも使えるから考えてごらん、と言われているような気になります。

注)原著は0と1の記号は、# ではなく* を使っています。今回のブログでは * は、0~9の意味で統一した方が分かりやすいと思いましたので # を使いました。

 

 

宮崎 幸生 について

みやざき ゆきお
プロセス&メジャメント 代表
■1973年、富士通株式会社入社。アプリケーションパッケージの開発に従事。1976年、黎明期のソフトウェアエンジニアリングの研究・開発に取り組む。以降、ソフトウェアエンジニアリングの中でもソフトウェア測定と分析を中心とした管理手法の分野に一貫して従事。ソフトウェア開発に関わるデータの実態を熟知した上で、1980年代から、ソフトウェアデータの分析にロバストな統計手法を取り入れる。1994年には独自にロバストな回帰分析手法(r最小二乗法)を考案した。2001年、ソフトウェアの見積モデルに関する研究で博士号を取得。2002年、CMMリードアセッサ、続いてCMMIリードアプレイザの資格を取得。現在は、富士通クオリティ・ラボ株式会社と契約をしながら、富士通および関係会社でのデータ分析やプロセス改善に関する教育、講演、コンサルティングを行うと共に、JUAS(日本情報システム・ユーザー協会)、ソフト・リサーチ・センター、日本テクノセンターなどでのセミナーを行っている。
■主な論文/書籍:
“COCOMO Evaluation and Tailoring”, International Conference on Software Engineering(ICSE), 1985
“Software Metrics Using Deviation Value”, ICSE, 1987
“Robust Regression for Developing Software Estimation Models”, The Journal of Systems and Software, 1994
「ソフトウェア品質保証システムの構築と実践」、ソフト・リサーチ・センター、2008
■資格: CMMI® リードアプレイザ、博士(工学)
カテゴリー: 測定と分析, 未分類 タグ: , , , , , , , パーマリンク

コメントを残す