JR東日本は2013年7月25日、Suica乗降履歴の外部提供についてプレスリリースやQ&Aを公開するとともに、利用者が保有するSuicaをデータ提供の対象から除外できるようにする「オプトアウト」の受付を翌26日に始めた(参考記事)。

 これらの発表資料では必ずしも明確ではなかったデータ提供の詳細について、改めてJR東日本の担当者に取材した。以下、要点をインタビュー形式で紹介する。


提供対象となったSuica乗降履歴のデータ項目と、その粒度は。

 乗降駅、利用日時、鉄道利用額、利用者の性別と生年月、そしてSuicaIDから変換した識別用IDだ。日時は秒単位で渡している。数字は個々のSuica読み取り機のタイマーに準拠するので、どこまで正確かは分からないが・・・。

誕生日を年単位でなく月単位で渡したり、利用日時を秒単位で渡したりと、引き渡すデータの粒度が必要以上に細かい印象を受ける。

 大枠でいえば、JR東日本は氏名や電話番号といった個人識別情報を取り除いたデータを日立製作所に渡し、日立製作所の側で統計処理を行っていただく役割分担になっているので、あえてJR東日本でそれ以上の処理は行っていない。

 例えば、「利用者は数百人と少ない駅のデータはレポートから除く」「早朝・深夜で利用者が少ない時間帯のデータは除く」といった匿名化処理は日立製作所が行っている。

 生年月については、その時点での年齢を把握するためのデータとして提供した。生年月でなく年齢で渡しても良かったかもしれない。

そうであれば、統計レポートを提供する主体をJR東日本にして、日立製作所に処理を委託するという形でも良かったのでは。

 委託という形も検討はした。ただ、日立製作所が持つデータ分析能力やノウハウ、お客の求めに応じてスピーディにレポートを出せる体制など、企業としての得手不得手を考えて、日立製作所が主体となってサービスを提供する形になった。

 今回、サービス提供主体である日立製作所からリリースを出すと形になったが、JR東日本から(リリースなどの形で)情報公開をしなかった点は率直に反省している。