|
|
第11回 データ解析──データの価値を引き出す,様々な解析手法を知る
出典:日経ITプロフェッショナル 2005年1月号
94ページより
(記事は執筆時の情報に基づいており、現在では異なる場合があります) データから「価値」を引き出し,経営に役立たせる──。それを可能にするシステムを構築するためには,データを集計・分析する様々な解析手法を知っておく必要がある。今回は,統計,回帰分析,相関分析の3つを取り上げ,データ解析の種類や手順について解説していく。 皆さんは,「標準偏差」や「回帰分析」と聞いて,すぐにピンとくるだろうか。学生時代に勉強したことのある人は多いに違いない。しかし,現在の仕事に役立てられている人はどれぐらいいるだろうか。 統計の計算をする道具として,コンピュータは非常に有用である。なぜならコンピュータは繰り返し計算を得意とする機械であり,大量のデータを驚くほどの速さで処理できるからだ。ただし,ITエンジニアが標準偏差や回帰分析といったデータ解析の手法を知らないと,適切なデータを収集できなかったり,収集したデータを十分に活用できなかったりするシステムができ上がる恐れがある。 そこで今回は,ITエンジニアが知っておくべき代表的なデータ解析の手法である,統計,回帰分析,相関分析について解説しよう。 データを代表する値を導くまず,皆さんは統計の正しい意味をご存知だろうか。「統計」とは,大量のデータの集まりをもとに代表的な値(代表値と呼ぶ)を求めることである。代表値の種類には,「平均値」や「メジアン(中央値)」,「モード(最頻値)」などがある。 平均値には様々な種類があるが,最も一般的なのは,「算術平均値(単純平均とも呼ぶ)」だろう。算術平均値は,すべてのデータを合計し,それをデータの数で割ったものだ。 これに対してメジアンは,すべてのデータを大きい順(または小さい順)に整列させた場合に,中央にある値のことである。もしデータ数が偶数あった場合には,中央にある2つの数の平均値をメジアンとする。 モードは,すべてのデータの中で最も出現頻度の高い値のことだ。出現頻度が最大の値が複数ある場合は,モードは決まらない。 図1に,平均値,メジアン,モードの具体例を示した。7人の学生に100点満点のテストを行い,その結果が図1上の表のようになったとしよう。これらのデータから,平均値,メジアン,モードを求めると,それぞれ75点,70点,65点となる。いずれもデータ全体を代表する値である。
これら3つの代表値は,性質を理解して,状況に応じて使い分ける必要がある。平均値はよく使われる値なので,説明の必要はないだろう。では,メジアンとモードはどんな時に使うのか。 例えば,一般的な日本人の貯蓄額は,メジアンで代表すべきである。貯蓄額の平均値を求めたら1500万円になったとしよう。これは,ほんの一部の大金持ちによって引き上げられた値であり,全体を代表しているとは言い難い。では,メジアンを求めて,「貯蓄額が900万円」ならばどうか。これなら,一般的な貯蓄額として無難な値だと誰もが納得するはずだ。 街を歩いている人が着ている服の色を調べるような場合なら,モードで代表するのが適している。もしも,赤色を着ている人が最も多いなら「流行色は赤」と判断できる。このことから,モードのことを「流行値」とも呼ぶ。 データのばらつきを見る3つの中で,最も頻繁に用いられるのが平均値である。平均値は,「分散」または「標準偏差」と一緒に示されることがよくある。分散と標準偏差はどちらも,平均値からのデータの“ばらつき”を示す値だ。分散や標準偏差の値が小さければ小さいほど,平均値の近辺にデータが集中していることになる。 それぞれの計算手順を説明しよう。分散はまず,個々のデータの値と平均値の差である「偏差」を求め,それらを2乗して合計し,データ数で割る。「偏差の2乗平均」と考えれば,覚えやすいだろう。 図2を見てほしい。先ほど示した平均点75点の7人のテスト結果の偏差と分散,標準偏差を算出した例だ。分散は,次のようにして求められる(分散には単位をつけない)。
分散=((70−75)2+(65−75)2+(60−75)2+(95−75)2+(80−75)2+(65−75)2+(90−75)2)/7≒157.1 連載新着連載目次へ >>
|