図1 データ収集方法の概要(トレンドマイクロのプレゼンテーション資料から引用)。「3ホップ目」のページについては、そのURLからカテゴリーだけを求め、内容(コンテンツ)については解析していない
図1 データ収集方法の概要(トレンドマイクロのプレゼンテーション資料から引用)。「3ホップ目」のページについては、そのURLからカテゴリーだけを求め、内容(コンテンツ)については解析していない
[画像のクリックで拡大表示]
図2 東京大学 大学院情報理工学系研究科講師 増田直紀氏
図2 東京大学 大学院情報理工学系研究科講師 増田直紀氏
[画像のクリックで拡大表示]

 トレンドマイクロと東京大学は2008年1月28日、情報セキュリティに関する共同研究の成果の一部を発表した。Webサイトの内容は、そのリンク先あるいはリンク元サイトと似ている場合が多いので、これを応用すれば、Webサイトの内容を調べることなく、サイトの危険度をある程度推測できるという。

 今回発表された研究の目的は、「危険・有害サイトが、どのようなWebサイトと結びついているのか(リンクが張られているのか)」を調べること。危険・有害サイトのリンク構造に法則性などがあれば、リンク先やリンク元のサイトを調べることで、対象サイトが危険かどうかを推測できるからだ。共同研究の実施期間は2007年6月から2008年1月。

 同研究では、トレンドマイクロのURLフィルタリング製品などが使用している「Webコンテンツ評価データベース」を利用。このデータベースには、インターネット上のWebサイトが内容(カテゴリー)別――例えば「アダルト」「ギャンブル」「犯罪」「健康」「不動産」――に分類され収められている

 このデータベースから、700件のURLをランダムに抽出。それらのURLを出発点として、専用プログラム(クローラー)を使ってページ中のリンクをクリック。3ジャンプ先までのページ(1~3回までのクリックで到達できるページ)をすべて収集し、Webコンテンツ評価データベースに基づいて、それらのページのカテゴリーを分類。これにより、カテゴリーに基づいたWebサイト同士の“結びつき”を調べた(図1)。

 調べたページ数は1247万2530件、リンク数は5270万8173件、ドメイン数は33万9828件。データの収集期間は2007年9月25日から30日の5日間。データの収集などには、トレンドマイクロのコンピューターを利用した。

 調査の結果、あるWebサイトのカテゴリーは、そのリンク先サイトやリンク元サイトのカテゴリーと同じである可能性が高い(相関がある)ことが明らかとなった。特に、「アダルト」サイトではその傾向が顕著だったという。「アダルト」サイトからのリンク先(あるいはリンク元)が同じく「アダルト」である確率は7割以上。一方、「アダルト」以外のサイトでは、リンク先/リンク元が同じカテゴリーである確率は35%以下だった。これにより、リンク先やリンク元サイトのカテゴリーを調べることで、未知のWebサイトの危険性(危険・有害なカテゴリーに含まれるかどうか)をある程度推定できるだろうとしている。

 そのほか、“出発点”が安全なカテゴリーのページであっても、リンクをたどっていくうちに、有害なカテゴリーのページ(例えば「アダルト」)にアクセスする可能性があることが判明したという。

 加えてこの可能性は、リンクをたどる回数(ジャンプの回数)が増えれば増えるほど高まることが明らかとなった。例えば、1回のジャンプ(1クリック)で「アダルト」サイトに到達する割合は平均0.27%だが、2回および3回のジャンプ(2~3クリック)では、平均2.69%まで上昇したという。

 解析担当者の一人である、東京大学 大学院情報理工学系研究科講師の増田直紀氏によれば、「Webサイトのリンク構造を調べた研究は過去にもあるが、(Webページの)カテゴリーに基づいて調べたのは今回が初めて」(図2)。

 今回の成果報告は、あくまでも“第一弾”。今後も共同研究を継続。より大規模なデータ収集と解析を実施し、製品やサービスへの応用を目指すという。