図5 内訳を詳細に見るドリルダウン<BR>「開発フェーズの工数をプログラム別に分ける」,「月別の売上集計を週ごとに分ける」など,あるデータについての切り口を下の階層に置き換えることをドリルダウンと言う。あるチームの2月の開発フェーズの工数を,プログラム別にドリルダウンした
図5 内訳を詳細に見るドリルダウン<BR>「開発フェーズの工数をプログラム別に分ける」,「月別の売上集計を週ごとに分ける」など,あるデータについての切り口を下の階層に置き換えることをドリルダウンと言う。あるチームの2月の開発フェーズの工数を,プログラム別にドリルダウンした
[画像のクリックで拡大表示]

切り分けると問題が見える

 データの全体像を把握したら,次に部分的な特徴を見ていく。

 作業の基本は,データを切り分けることである。例えば企業全体のシステム稼働時間を集計したら,部門別,月別,機能別…,というように様々な切り口を設けてデータを切り分けてみる。すると,それまで見えなかった問題点が浮かび上がってくる。

 この時,むやみに切り口を増やすのは問題だ。店舗への来客データを「時間帯」,「年齢」,「性別」,「来店回数」という4つの切り口で調査したとする。その結果,「午前中に来店する30代女性で,過去の来店回数が2~5回の人は,購買単価が低い」という傾向を発見できた。そこで「何とかしてこの層の購買単価を引き上げたい」と考えたとしても,あまり現実的とは言えない。

 これだけ細かく切り口を設定してデータを切り分けると,対象となる層は全体の中のごく一部に限られる。たとえこの層の購買単価を上げたとしても,全体への影響は軽微なものに過ぎない可能性があるからだ。

 そこでこのような場合は,まず該当顧客の数や売り上げが,全体の中でどれくらいの割合を占めるのかを確認する。全体のごく一部に過ぎないのであれば,あえて切り口を1つか2つ外してみる。仮に午前中に来店する顧客全体の購買単価が,午後に来る顧客に比べて低いのであれば,午前中の来店客全員に対して,まとめ買いをしてもらうためのキャンペーンを実施すると大きな効果を期待できるだろう。

 様々な切り口を設けることのほかに,特定の切り口の階層を深めていく分析の方法もある。それが「ドリルダウン」である。例えば「開発フェーズ別」の工数を「プログラム別」,「モジュール別」と分けるように,切り口をどんどん詳細なものに置き換えていくのだ(図5[拡大表示])。

 データの詳細を見る上で極めて有効な手法だが,注意して欲しいのは,必要以上に深くドリルダウンしてはいけないということだ。今,分析しているデータが全体のどこに位置付けられているのかを把握しにくくなるし,あげくの果てには,分析の目的が分からなくなってしまう。

散布図で「関係」も解明

 データの部分的な特徴を調べるもう1つの方法は,「データ同士の関係」を解明することだ。データ同士の関係は,相関関係と因果関係に注目しよう。相関関係とは「一方が変われば他方も変わるという関係」,因果関係とは「一方が原因で他方が結果という関係」を指す。

 統計学では2つの数値の相関関係を「相関係数(R)」で表す。相関係数は-1から+1までの数値をとり,数値がプラスの場合は「正の相関関係(一方の変数が大きいと,もう一方の変数も大きい)」,マイナスの場合は「負の相関関係(一方の変数が大きいと,もう一方の変数は小さい)」があることを示す。比例は正,反比例は負の相関関係である。そして相関係数の絶対値が大きいほど,相関関係が強いということになる。表計算ソフトを使うと,2つの変数から相関係数を簡単に算出できる。

 相関関係を調べる際は相関係数だけに頼るのではなく,散らばり具合の確認と同様に,散布図を描いて目で確認する習慣を身に付けて欲しい。「相関係数が0.8だから正の相関が高い」と数値で理解するよりも散布図を見る方が納得しやすく,相関係数では捉えられなかったデータの部分的な相関関係も把握することができるからだ。

相関関係に理由はあるか

 相関関係を見つけたら,そこにどんな因果関係があるのかを探ろう。

 例としてIT企業の社員数と売り上げの関係を考えてみる。データを収集したところ,社員数が多い企業ほど売上高が大きいという正の相関関係が見られた。何らかの因果関係はあるのだろうか。

 社員数が多ければ規模の大きなプロジェクトを数多く手掛けられるので,売上高は増えると考えられる。そこで「社員数の増加(原因)→売り上げの増加(結果)」という因果関係が成り立ちそうだ。

 一方,売り上げの多い会社に就職希望者が集まると仮定すれば,「売り上げの増加(原因)→社員数の増加(結果)」という関係も考えられる。だが就職希望者が売上高だけを頼りに就職先を選ぶことは少ないだろう。よって,この因果関係は妥当とは言えないことになる。データから因果関係を導き出す統計手法も存在するが,このように最終的には人間による推論が不可欠である。

 よって,常に明確に導き出せるものではない。実はデータから因果関係を見つけるのは非常に難しい。因果関係とは,データだけからは読み取れない様々な条件やビジネスの局面を考慮して,初めて説明できるものだからだ。

 データ上では一見すると因果関係を読み取れない場合も,別のデータを照らし合わせることで,明らかになる可能性もある。また原因と結果との間には,多かれ少なかれ時間差がある。そのため,ある期間をおいて再度同じ調査をすると,因果関係が浮かび上がることがある。

説得力を生む因果関係

 因果関係を探るのは決して容易なことではない。だが相関関係にひそむ因果関係を明らかにする作業は,極めて重要だ。

 データ分析はビジネスに活かしてこそ価値がある,と述べたことを思い出していただきたい。例えば,残業時間の多いチームは,バグの改修率が低いという負の相関が見られた。それならば,なぜそうなっているのかを考えなければ,バグの改修率を高める(もしくは残業時間を減らす)ための解決策は見つからない。やみくもに残業時間を減らせば済む問題ではないのだ。

 また因果関係を解明すると,分析結果に大きな説得力を与えられる。「理由は分からないがこれらのデータの間には相関関係がある。だからこうするべきだ」という報告では,相手を納得させられないし,当然次のアクションも起こせない。


加納 千晶(かのう ちあき)/スカイライト コンサルティング

ITコンサルタント。統計分析やデータマイニングの手法を活用し,顧客企業の意思決定や改善策を導き出す支援を行っている。主な対象領域はマーケティング企画,顧客情報管理,購買管理など