スパムメールはどこまで排除できるか
（検証3　日本語への対応度）

八木玲子

2004.06.03

日本語メールへの対応は今一歩

　ここまでのテストは，すべて日経バイトに実際に届いたメールを使って実施した。スパムメールの実情には即しているが，テストとしてみると不足があった。一つは，英文の正当なメールが少ないこと。実際に届いた英文メールはほとんどがスパムであるため，英文の正当なメールを正しく判定できるか判断できない。

　もう一つは，日本語のメール自体が少ないことである。コンピュータ系のプレスリリースがほとんどで，それ以外の正当なメールや日本語のスパムメールがどの程度判定できているかを測定できない。

表2●テストに使ったメールの内訳（テスト結果は図6と図7）
英語は，米国の大手企業のプレスリリースとメールマガジンをそれぞれ10通ずつ，計20通を用意した。日本語のものはプレスリリースとメールマガジンに加え，スパムメールも作成し，計30通を読み込ませた。プレスリリースとメールマガジンは正当なメール，スパムメールはスパムと判断するのが正解としてテストした。なおどのメールもテスト用のメールアドレスから送信したため，元々の送信元とはアドレスが異なっている。

図6●英文メールの判定
正しく判定できたメールの通数を示した。POPFileですべてのメールをスパムと判定したのは，英語で書かれた正当なメールをほとんど学習させていなかったためと推測できる。

図7●日本語メールの判定
正しく判定できたメールの通数を示した。ウイルスバスター2004やNorton AntiSpamが安定した力を発揮した。POPFileも健闘している。

　このため，英語と日本語の両方で，判定が難しいメールを自作してそれぞれのソフトに読み込ませてみた。スパムと区別が付きにくいメールの代表はプレスリリースとメールマガジンである。両方とも宣伝的な内容やURL を内容に含んでいるからだ。このため，英語と日本語のプレスリリースとメールマガジンのサンプルを10 通ずつ収集した（表2[拡大表示]）。さらに日本語は，スパムメールのサンプルも1 0 通作成した。

　英語に関しては，正しく判定できたものとそうでないものがはっきりと分かれた（図6[拡大表示]）。一つも正当なメールと判定できなかったのが，POPFile とMcAfeeSpamKiller である。このうちPOPFileの結果が芳しくなかったのは，英語の正当なメールをほとんど学習させていなかったためだろう。McAfee SpamKillerは，デフォルトの状態から正当なメールを誤判定する確率が若干高かった。この傾向がこのテストでも現れたと思われる。

　一方日本語の判定性能を見ると，正当なメールとスパムメールの両方をすべて正しく判定できた製品はなかった（図7[拡大表示]）。どちらもそれなりに正しい結果を出せたのは，Norton AntiSpam ，ウイルスバスター，POPFile の3 製品。あとはほとんどスパムと判定したり，その逆の結果となるものばかりだった。たとえばOutlook やMozilla は，スパムメールをスパムと判断できたものは一つもなかった。

　日本語のメールに対してそれなりの判定ができた3 製品は，どれも日本語独自の処理を導入しているものである。Nor-ton AntiSpam は，「日本語の文章を適切な単位に区切る技術を導入している」（シマンテックコンシューマ・マーケティング部プロダクトマーケティングマネージャの田上利博氏）。さらに日本のエンジニアが日本語のスパムメール固有の特徴を集め，フィルタリング・ルールに反映しているという。同じく日本語を文節に区切る技術を導入しているのがPOPFileである。「KAKASI 」というフリーの形態素解析システムを利用している。

　ウイルスバスターは，現時点では日本語のスパムメールに特有の判定ルールを用意し，フィルタリングに利用している。文節を区切るための技術は導入していないが「より精度を上げるために，今後形態素解析の導入も考えている」（トレンドマイクロマーケティング本部プロダクトマーケティング部プロダクトマネージャーの濱田茂氏）。

　日本語向けに特別な処理をしていない製品のいくつかは，将来的な対応を予定している。例えばマイクロソフトは「Exchange Server には3 月に導入する。Outlook もその後対応予定」（マイクロソフトインフォメーションワーカービジネス本部オフィス製品部の井上智裕シニアプロダクトマネージャ）。Eudora にも，同様の計画があるという。