関連度によるソートを基本に評価

 ソートについては,製品によって考え方が分かれる。ファイルの作成・更新日時の新しい順番に並び替えるソートと,関連度によるソートがある。

 前者は「長い間アクセスしていないファイルの重要度は低い」という経験則に基づいている。例えばサーチクロスとSpotlightは,関連度を基にソートする機能はない。日時によるソートがデフォルトになっている。

 関連度は,一般にファイルの中にあるキーワードの数や位置によって算出する。サーチクロスとSpotlightを除く4製品は,関連度によるソートができる。ただGoogleデスクトップ検索とMSNサーチツールバーwith Windowsデスクトップサーチは,日時によるソートがデフォルト。今回は検索エンジンの傾向を見るのが目的であるため,関連度のソートに切り替えてから両者の精度を評価した。

 ConceptSearchとQuickSolutionパーソナル体験版は,関連度によるソートがデフォルトである。あいまい検索が可能なので,検索結果の件数が他製品よりも多い。このためConceptSearchは上位50件,QuickSolutionパーソナル体験版は関連度50以上かつ10件以下,という検索結果の表示ポリシーが標準で設定されている。ConceptSearchはデフォルトで測定。QuickSolutionパーソナル体験版は,測定対象ファイル群において関連度50の設定で最も検索結果が多いのが98件だったことから,表示件数の上限を100に設定して評価した。

 関連度によるソートの難点は,下位にソートされたファイルがユーザーの目から埋もれたままになる可能性があること。ただ関連度によるソートは,多くの場合に完全一致がスコア上位にくること,デスクトップ検索はインターネット検索と違い対象とするファイル数が少ないことなどから,実用上問題にはならない。50件程度であれば,検索結果をすべてたどることも可能だ。

検索速度は大差なし

 評価の対象から外した主な指標としては,検索速度とメタデータの扱いがある。

 検索速度は,検索処理量が検索件数に比例しないインデックス型の検索エンジンであるため,製品間で大差ない範囲に収まった。500Mバイトの測定対象ファイル群を使った予備テストでは,1秒以下で終わることがほとんどだった。検索対象が数十億ページにのぼるインターネット検索であればともかく,ローカルのファイルを対象とするデスクトップ検索では検索時間そのものは同程度だと言える。

 ただしファイルの内容を実際に表示する「プレビュー」機能を持つソフトは,検索結果の表示終了に時間がかかる。PDFファイルであればAdobe Reader,docファイルであればMicrosoft Wordといったように,表示用のアプリケーションを呼び出す処理が発生するからだ。プレビューの時間は体感速度に大きく影響するが,ファイルを開くアプリケーションをOSが持つ連携機能(OLE:Object Linking and Embedding)で呼び出す以上,検索ソフト間の差とは言えないため評価の対象から外した。

 メタデータについては,ファイル・システムが保持する作成者や更新日といった情報を除けば,現在のところ自動的に情報が付加されるのは音楽ファイルの「ID3タグ」や,デジタルカメラで撮影した画像に付随する「Exif(Exchangeable Image File Format)」程度。検索ソフトとして,インデックスの対象にするかしないかの違いでしかない。なお,Googleデスクトップ検索,MSNサーチツールバーwith Windowsデスクトップサーチ,Spotlightの3製品は,ID3タグとExif情報の検索に対応する。

負荷と精度にトレードオフの関係も

 評価した結果,ユーザーの目的によってデスクトップ検索ソフトに向き不向きがあることが分かった。例えば,自ら記述・作成したファイルだけでなく,第三者が作成したファイルを含めた関連文書を総ざらえしたい場合は,ソフトによっては検索漏れが起こる。その分かれ目は,表記ゆれへの対処とファイル・サイズの制限にある。

 ファイル名や内容の表記にゆれがある場合は,ConceptSearchやQuickSolutionパーソナル体験版のようなあいまい検索が有利になる。例えば「海外出張」をキーワードとして,「海外旅行」部門へのFAXシートを検索できた。半面,キーワードに完全一致するファイルを探したい場合には,結果を選別する作業が必要になる。

 Googleデスクトップ検索とSpotlightは,インデックス生成の負荷とサイズを軽減するために,抽出したテキスト情報の一部しかインデックスに含まない。重要な情報が先頭に位置することが多い一般的な文書構造であれば問題ないが,大きなファイルの後方にある単語を対象にしたキーワードでは検索漏れが起こる。

 総じて検索漏れの少ない製品は,CPU使用率やメモリー使用量などの負荷が高い。より多くのデータを取得してインデックスに反映するため,リソースを消費するのは避けられないのだろう。