BYTE LAB「デスクトップ検索」（2）

日経バイト

2005.12.16

検索速度は大差なし

　評価の対象から外した主な指標としては，検索速度とメタデータの扱いがある。

　検索速度は，検索処理量が検索件数に比例しないインデックス型の検索エンジンであるため，製品間で大差ない範囲に収まった。500Mバイトの測定対象ファイル群を使った予備テストでは，1秒以下で終わることがほとんどだった。検索対象が数十億ページにのぼるインターネット検索であればともかく，ローカルのファイルを対象とするデスクトップ検索では検索時間そのものは同程度だと言える。

　ただしファイルの内容を実際に表示する「プレビュー」機能を持つソフトは，検索結果の表示終了に時間がかかる。PDFファイルであればAdobe Reader，docファイルであればMicrosoft Wordといったように，表示用のアプリケーションを呼び出す処理が発生するからだ。プレビューの時間は体感速度に大きく影響するが，ファイルを開くアプリケーションをOSが持つ連携機能（OLE：Object Linking and Embedding）で呼び出す以上，検索ソフト間の差とは言えないため評価の対象から外した。

　メタデータについては，ファイル・システムが保持する作成者や更新日といった情報を除けば，現在のところ自動的に情報が付加されるのは音楽ファイルの「ID3タグ」や，デジタルカメラで撮影した画像に付随する「Exif（Exchangeable Image File Format）」程度。検索ソフトとして，インデックスの対象にするかしないかの違いでしかない。なお，Googleデスクトップ検索，MSNサーチツールバーwith Windowsデスクトップサーチ，Spotlightの3製品は，ID3タグとExif情報の検索に対応する。

負荷と精度にトレードオフの関係も

　評価した結果，ユーザーの目的によってデスクトップ検索ソフトに向き不向きがあることが分かった。例えば，自ら記述・作成したファイルだけでなく，第三者が作成したファイルを含めた関連文書を総ざらえしたい場合は，ソフトによっては検索漏れが起こる。その分かれ目は，表記ゆれへの対処とファイル・サイズの制限にある。

　ファイル名や内容の表記にゆれがある場合は，ConceptSearchやQuickSolutionパーソナル体験版のようなあいまい検索が有利になる。例えば「海外出張」をキーワードとして，「海外旅行」部門へのFAXシートを検索できた。半面，キーワードに完全一致するファイルを探したい場合には，結果を選別する作業が必要になる。

　Googleデスクトップ検索とSpotlightは，インデックス生成の負荷とサイズを軽減するために，抽出したテキスト情報の一部しかインデックスに含まない。重要な情報が先頭に位置することが多い一般的な文書構造であれば問題ないが，大きなファイルの後方にある単語を対象にしたキーワードでは検索漏れが起こる。

　総じて検索漏れの少ない製品は，CPU使用率やメモリー使用量などの負荷が高い。より多くのデータを取得してインデックスに反映するため，リソースを消費するのは避けられないのだろう。