初期状態でも半数以上を判定可能 |
どんなソフトでも,自分の思い通りに動作させるにはある程度のカスタマイズが必要である。ただ初期状態でソフトがそれなりに正しく判断できれば,それに越したことはない。
このためまず,ソフトをインストールしただけの状態で598通のメールを読み込ませてみた。するとPOPFileとMozillaは,まったくと言っていいほどフィルタリングできなかった。この2製品は,どのメールがスパムで,どのメールが正当なメールかを最初に学習させることが前提となっているためである。
残りの5製品は初期状態でもある程度フィルタリングが実行されるため,それぞれの判定率を調べてみた。ここで判定率とは,メール全体のうち正当なメールを正当と,スパムメールをスパムと正しく判定できた率を示す。またスパムメールの判定率と言った場合は,全スパムメールのうちスパムと判定できた率を指す。正当なメールの判定率も同様である。
メール全体の判定率は,5製品とも初期状態で50%以上を達成していた(図2[拡大表示] )。スパムメールの傾向をあらかじめデータとして持っているため,それを利用してフィルタリングしている。
しかしスパムメールの判定率や正当なメールの判定率を個別に見ていくと,製品ごとに個性がある。フィルタリングのポリシーが製品ごとに異なるためだ。
少しでも疑わしいメールをスパムと見なせば,スパムの判定率は上がる。しかし単純にそれを実行すると,正当なメールまでスパムと判定ミスする可能性が高まる。つまりスパムメールと正当なメールの判定率は,トレードオフの関係にある。正当なメールをブロックする危険性を極力避けるか,できるだけ多くのスパムメールをブロックすることを重視するかは製品のポリシーによって異なる。
顕著な例がOutlookとEudoraである。Outlookは,正当なメールをスパムと判断してしまうミスは一つもなかった。その代わり,スパムメールをスパムと判定できた率も低い。438通のスパムメールのうちスパムと判定できたものは160通のみ。5製品中で最も少なかった。
一方のEudoraは,スパムメールの判定率は高い。294通のメールをスパムと判定できていた。しかしそのぶん,正当なメールをスパムと判定ミスをした数が87通にものぼった。
この点,最も優秀だったのがNorton AntiSpamである。309通と5製品中最も多くのスパム判定数を確保しながら,正当なメールの判定ミスも2通に抑えた。
内容が不明確なメールの判定は困難
さらに判定結果を細かく分析していくと,どんなスパムメールはスパムと判断しやすく,どんなメールは判断しにくいかが見えてきた。
すべてのソフトが正しく判定できたスパムメールは68通あった。本文中に,典型的な語を含むものが多い。「Click here」などの語で指定のURLにアクセスすることを求めるものなどだ。
どのソフトも正しく判定できなかったスパムメールは40通。広告や宣伝でも取り扱う対象が珍しいものや,本文を読んだだけではどんな意図なのか分からない,内容をぼかしたメールが多かった。中国語で書かれたメールも目立った。
判定の強度を上げるとミスも増える
デフォルトの判定結果から,どのソフトでも正当なメールの誤判定に比べて,スパムメールをスパムと判断できない誤りが多いことが分かった。ポリシーの差こそあれ,基本的には安全性を重視しているためである。スパムメールをフィルタリングできなくてもユーザーが不快な思いをするだけだ。しかし正当なメールをスパムと判定し,ユーザーもそれに気づかなかった場合,重大な損害が発生する危険性があるから当然と言える。
だがこれでは不便なので,スパムと判定する基準をユーザーが変更できるものもある(画面3[拡大表示])。デフォルトで何らかのフィルタリングを実行する5製品だ。
強度の設定法はソフトによって異なる。低,中,高など2~5段階で設定するものは,デフォルトよりも1段階強めて再度同じメールを読み込ませた。スパムと判定するしきい値を任意に設定できるEudoraでは,スライドバーの1目盛りぶんである25ポイント強度を強めた。
メール全体の判定率は,どのソフトでも向上した(図3[拡大表示])。スパムメールのうちスパムと判定できていなかったメールの多くを正しく判断できるようになったためだ。特にOutlookの向上率が高い。デフォルトでは160通しかスパムと判定できなかったが,369通まで増えた。
一方,当然の結果としてほとんどのソフトで正当なメールをスパムと判断してしまうミスは増えた。特にEudoraではミスの増加が目立った(図4[拡大表示])。
McAfee SpamKillerも同じくミスが増えているが,これは仕様に基づく結果である。強度を最も強くした場合,ユーザーがあらかじめ登録したメールアドレス以外から来たメールはすべてスパムと判定する仕様になっている。
Outlookでは精度の向上だけが見られ,誤判定の数は増えなかった。読み込ませるメールによって結果は変わるため一概には言えないが,今回のテストで見る限り,Outlookは強度を上げて使用する方が使い勝手が良さそうだ。