大阪ガスは社員のデータリテラシー研修に心血を注いでいる。基礎講座の受講者は1000人を超え、ビジネスの現場で成果を上げる。今回は第1回で紹介した初級編に続く上級編を潜入報告する。ここでは複数のデータ間の関係を解明する分析手法の習得に重点を置く。

 2014年12月5日、大阪ガスの会議室に朝から15人の社員が集まってきた。「データ分析講習」の上級コースAを1日かけて学ぶためだ。顔ぶれを見ると、グループ会社を含めたビジネス現場の最前線で活躍する中堅社員が大半を占める。受講者たちは過去に2日間の初級・中級コースを体験済みだ。このときは「データから誤った判断を下さないようにすること」と「他人が実行したデータ分析の結果をうのみにしないようにすること」の2つに絞って、講義と演習を通じて勘所を学んだ。それを踏まえて、今回の上級コースAではデータ間の関係を解明する分析手法を習得する。

 大阪ガスはデータ分析の「実行」前後の工程を重視し、プロセスを定義している(図1)。上級コースAではこれらの各プロセスに「回帰モデルを適切に設計」「データの型を見極める」「有効な説明変数を見極める」といった学習項目を追加している。データサイエンティストを何人も抱える大阪ガスは、データ分析に不備があると意思決定を誤るリスクが常に付きまとうことを、身を持って体験してきている。そこで現場を回す中核社員により高度なプロセスを伝授し、“正しい分析”を理解したうえで実行できるように育てている。

図1●大阪ガスのデータリテラシー研修(上級コースA)で学べるデータ分析のプロセス
図1●大阪ガスのデータリテラシー研修(上級コースA)で学べるデータ分析のプロセス
[画像のクリックで拡大表示]

 上級コースAの内容は初級・中級とは違い、仕事に即使える実践的なものだ。ガス会社の現場で実際に起こりそうなビジネス課題などを例に上げながら、エクセルでの演習やグループ討議も交えて進める。

セッションごとにエクセルを使った演習を実施する
セッションごとにエクセルを使った演習を実施する
[画像のクリックで拡大表示]

 今回の記事では、約150枚ある上級コースAのスライドのなかから抜粋した9枚を見ながら、データリテラシー研修を読者が誌面で追体験していく。スライドを順に見ていこう。

 最初の2時間は初級・中級のおさらいだ。ビジネスパーソンにはなじみ深い平均値について、実は「誤差」を含むことを再確認し、定量的に評価することから始める。演習では幼稚園児の身長と体重、足の大きさのデータが与えられ、それらの平均値と標準偏差を学年別と男女別に求める。子供たちの体格に差は見られるか。

誤差がある「平均値」、誤解されやすい「相関係数」

 初級・中級をマスターしている受講者たちは、いきなりエクセルで計算を始めた。すかさず講師がストップをかける。データ分析のプロセスを忘れてしまっている。多くの人はデータを与えられると、すぐにエクセルで結果を求めようとする。しかし、それは危険なことだ。平均値を出す前にするべきことがある。まずはデータの出所や傾向をチェックし、外れ値と呼ばれる「よくない値」をクレンジングする。

 例えば、与えられたデータのなかには「入力ミスがあり得る」(講師)。そのまま平均値を出すと、結果がおかしくなる。まずはヒストグラムや散布図を描いてデータの分布や変数の関係を“目視”で確認。外れ値を特定する必要がある。それでも判断に迷ったら客観的な基準である標準偏差に従って、外れ値を取り除く。