2006年から急増している「画像スパム」への対策には,通常の迷惑メール対策とやや異なるチェック・ポイントがある。

OCRで文字のイメージをテキスト化

 画像スパムに入っているのはイメージだが,それを見た人にはあくまで文字情報が伝わる形になっている。一部のアプライアンスなどではこれを利用して,OCR技術で画像から文字列を抽出する。こうすれば,ルール・フィルタなどのテキストを使ったフィルタで判定できる(図A)。

図A●画像スパムの対策
図A●画像スパムの対策
一部の製品は,OCRを使って抽出したテキストで画像スパムの検出を試みている。一方,画像スパムの方でも,画像を分割したり,画像にランダムな傷を入れたりしてOCRを回避しようとするため,対策ベンダーによってはOCRをかける前に傷を取り除くなどの補正をかけている。ヒストグラムのチェックで画像スパムを見分けるやり方もある。
[画像のクリックで拡大表示]

 画像ファイルやヘッダー情報をシグネチャにして,既知の画像スパムとの類似性で検出するという手法も採られている。こちらはアプライアンスだけでなく,ソフトウエア製品でも実装している。

画像スパムでもいたちごっこは続く

 だが,画像スパムの送信者も,対策を回避するべく手法を日々進化させている。例えば,画像の中にランダムなドットや線を書き込んだり,1枚の画像を分割したりするのだ。人間の目や脳にはかなり優れた誤差補正機能が組み込まれているので,こういったドットや切れ込みを入れても元の画像とほとんど変わらずに認識される。だが,コンピュータにとっては全く違う画像として認識されてしまい,OCRやシグネチャなどで検出できなくなるのだ。同様の目的で,文字列を波打たせたり,文字の背景もランダムに色を散りばめたりするという手を使うこともある。

 こういった手口に対して,当然ベンダー側でも研究が進んでいる。例えば,米バラクーダネットワークスの製品のように,ドットなどの余計な情報は事前に取り除く技術を使うというものだ。ゴミを取り除いてから,OCRで文字を読み取ることで,文字をきちんと把握できるようにする。

 また,画像スパムには“文字を際だたせるために,背景と文字の色には差があることが多い”といった特徴がある。こうした特徴を判別する手法もある。具体的には,「画像のヒストグラムなどをチェックする」(米アイアンポートシステムズ)のだ。図A右のように明確な差が出ることがある。

 そのほか,URLの分析やIPアドレスの信頼性のチェックなど,通常の迷惑メールと変わらない手法も併用されている。