「あなたの競合サイトを丸裸にする」――イスラエル発のスタートアップ企業、シミラーウェブはこうしたかけ声のもと、あらゆるWebサイトのPV(ページビュー)やアクセスの流入元などの推測値を企業に提供している。この推測値の元になっているのは、PCのユーザーから収集した膨大な量のWebサイト閲覧データだ。

 PCだけでなく、スマートフォンもデータ収集の対象になっている。2016年2月8日には、Androidアプリを解析する機能の国内提供を正式に始めた。特定のアプリのダウンロード数、時間ごとの利用頻度、アンインストール率の推定値が得られる。

 同社がデータを収集しているデバイスは世界190カ国、2億台以上に上る。日本を含め、各国のWebサイト利用者の1%ほどかそれ以上をカバーし、統計処理によるユーザー層の補正を経て、トラフィックの全体像を浮かび上がらせるという。

 こうしたユーザーの行動履歴データは、プライバシーへの意識の高まりもあり、大規模な収集は難しかった。シミラーウェブはどのような方法で、2億台のものデバイスから行動履歴を収集しているのか。公開情報や営業資料、シミラーウェブへの取材を通じて明らかにする。

他社ソフトウエアからデータを購入

 Web解析サービスといえば、これまで米ニールセンや米コムスコア、米アレクサといった企業が手掛けていた。自社開発のツールバーなどを通じて、ユーザーのWebサイト閲覧履歴を集める方法が主流だった。

 こうした従来のサービスと比較したシミラーウェブの大きな特徴は二つある。一つは、同社が「クリックストリームデータ」と呼ぶ行動履歴データの大半を、社外のソフトウエアから収集していることだ。ブラウザー拡張機能などの無償ソフトウエアを公開している企業や個人からデータを購入しているほか、そのソフトウエアの権利自体を購入している。もう一つは、PVやアクセスの流入元といった統計データに加え、行動履歴の生データ(raw data)も第三者に販売している点だ。

 では、他社のソフトウエアが行動履歴データをシミラーウェブに販売し、さらに同社が生データを第三者に販売していることを、どのような形でユーザーに通知し、あるいは同意を得ているのか。シミラーウェブに取材を申し込んだ結果、同社 コーポレートマーケティング シニアディレクターのアリエル・ローゼンシュタイン氏に電話で話を聞くことができた。以下、回答を要約して紹介する。

シミラーウェブは、どのようにして行動履歴データを集めているのか。

 5000を超えるソフトウエアから収集している。我々が開発したものもあれば、パートナー企業からデータを購入しているもの、ソフトウエア自体を我々が購入し、保有したものもある。

社外のソフトウエアからデータを購入するに当たり、ユーザーの同意取得や通知のプロセスを含め、そのソフトウエアにどのような条件を守らせているのか。

 二つの条件を課している。一つは、ユーザーに課金しないフリーソフトであること。もう一つは、個人の特定につながる情報を含まないデータを他社と共有することを、ユーザーに通知することだ。

シミラーウェブの公開資料(PDF)によれば、シミラーウェブにデータを提供しているソフトウエアは、データ収集の事実を「2ステップの通知(2 step notification)」を通じてユーザーに知らせているという。これはどのようなものか。

 今、そちらでChromeブラウザーが使えるだろうか。Chromeに、我々が提供するWeb解析のアドオン「SimilarWeb Site Traffic Source and Ranking」をインストールしてみてほしい。すると、ChromeからURL履歴へのアクセスを要求するメッセージが表示され、同意を求める。これが「ステップ1」だ。

Chromeが表示するパーミッション画面。日本語の意味が分かりづらいが、米グーグルの解説ページによれば「アクセスしたすべてのページ(銀行口座、Facebook)において、データの読み取り、リクエスト、変更を許可する」ことになる
Chromeが表示するパーミッション画面。日本語の意味が分かりづらいが、米グーグルの解説ページによれば「アクセスしたすべてのページ(銀行口座、Facebook)において、データの読み取り、リクエスト、変更を許可する」ことになる
[画像のクリックで拡大表示]