図1  デスクトップ検索ソフトの基本アーキテクチャ<BR>検索対象とするパソコン内のファイルに対して,インデックス作成機構がテキストやメタデータを抽出。文字列とファイルを関連付ける索引(インデックス)を作成する。検索時には,インデックスを走査してキーワードと一致するファイルのリストを生成。キーワードの出現頻度や作成日時などを重み付けに利用して検索結果を出力する。
図1 デスクトップ検索ソフトの基本アーキテクチャ<BR>検索対象とするパソコン内のファイルに対して,インデックス作成機構がテキストやメタデータを抽出。文字列とファイルを関連付ける索引(インデックス)を作成する。検索時には,インデックスを走査してキーワードと一致するファイルのリストを生成。キーワードの出現頻度や作成日時などを重み付けに利用して検索結果を出力する。
[画像のクリックで拡大表示]
表 測定した主なデスクトップ検索ソフト&lt;br&gt;インデックスを作成してファイルを全文検索する個人向け製品を中心に選定した。
表 測定した主なデスクトップ検索ソフト<br>インデックスを作成してファイルを全文検索する個人向け製品を中心に選定した。
[画像のクリックで拡大表示]
図2  測定に用いたファイルの内訳&lt;BR&gt;2004年に筆者が作成・ダウンロードしたファイルを使用。検索対象外の実行ファイルやアプリケーションの設定ファイルを削除して,約500Mバイトの測定用ファイル群を作成した。
図2 測定に用いたファイルの内訳<BR>2004年に筆者が作成・ダウンロードしたファイルを使用。検索対象外の実行ファイルやアプリケーションの設定ファイルを削除して,約500Mバイトの測定用ファイル群を作成した。
[画像のクリックで拡大表示]

 パソコンを起動して所望のファイルを開き,編集をして保存する。この誰もが繰り返している一連の作業で,「遅い」と感じる場面は減りつつある。ハードウェアの性能向上のおかげである。ところが目的とするファイルの保存場所が分からなくなると,途端に無駄な時間を過ごすことになる。あらかじめ時間をかけてファイルをフォルダに分類して格納しておく整理術は,所望のファイルを素早く見つけ出す上で欠かせないスキルになっている。

 このファイルの分類とそれに頼ったファイルの検索にかかる時間の節約を目的とした,個人向けの検索ソフト,いわゆる「デスクトップ検索」ソフトが注目を集めている。デスクトップ検索の中核は,パソコンのハードディスクに格納したファイル群の中から,ユーザーが入力したキーワードに合致する内容を持つファイルを検索する「全文検索」機能にある。そこで全文検索の機能を備える六つのソフトを評価した。

対象はインデックス型の6製品

 評価の対象としたのは,インデックスを作成して検索する製品(図1[拡大表示],[拡大表示])。インデックスとは,キーワードとファイルの内容を関連付けた索引のこと。例えば日経バイトというキーワードに対して,「日経バイト.txt」をひも付ける。こうすると,キーワードに対応するインデックスの項目を調べるだけで,日経バイトを含むファイルの所在を抽出できる。

 今回測定した6ソフトは,それぞれ製品の性格が異なる。知識データベースの構築が主目的の製品と,OSのファイル管理ソフトの補完が主目的の製品の2種類に大別できる。

 ジャストシステムの「ConceptSearch」と住友電工情報システムの「QuickSolutionパーソナル体験版」は,ユーザーが意図しないファイルを「発見」できるのが売り*1。Webサイトからダウンロードした資料など,ユーザーが自ら記述したファイル以外もなるべく多く抽出してユーザーに提示する設計思想を採る。

 基幹となるのは,キーワードを文字面のまま比較するのではなく,特徴を示す多次元ベクトルとして扱う「あいまい検索」の技術である。例えば通常は,「セグメント」と「セグメンテーション」といった表記の違いで検索結果が変わる。これを「表記ゆれ」と呼ぶ。あいまい検索であれば,表記ゆれによる検索漏れをある程度回避できる。

 一方,米Google社の「Googleデスクトップ検索」と「MSNサーチツールバーwith Windowsデスクトップサーチ」,ビレッジセンターの「サーチクロス 2.0」,および米Apple Computer社のMac OS 10.4 Tigerが備える検索機能「Spotlight」は,キーワードと一致しないフォルダまたはファイルを検索しない。このため,ファイルが存在するのは確かだが場所が分からない場合や,フォルダをたどる手間を省くのに向く。

負荷と精度を測定

 評価のポイントは大きく二つ。負荷と精度である。前者はインデックス作成時にユーザーの作業の邪魔にならないか,後者は所望のファイルを過不足なく見つけられるかが鍵になる。

 負荷については,CPUとメモリー,およびハードディスクを測定対象とした。CPUはCPU使用率,メモリーは仮想メモリーの利用量,ハードディスクはインデックスの作成時間と容量を測った。

 容量が約500Mバイトのファイル群を測定用ファイル群として用意し,6ソフトのそれぞれでインデックスの作成と検索を行った。測定用ファイル群は,1年間に作成したテキスト・ファイルや写真データ,Microsoft Office文書などの1673個26種類から成る(図2[拡大表示])。テキスト・データを含む「txt」「ppt」「xls」「pdf」「doc」がインデックス作成および検索対象の中心となる。

 今回評価した6ソフトは,測定用ファイル群のフォーマットに対応している。ただし米Microsoft社のMSNサーチツールバーwith Windowsデスクトップサーチは,PDFの内容を検索するには米Adobe Systems 社が無償で提供するプラグインが別途必要であるため,これをインストールした状態で評価した。

 負荷については,なるべくCPUやメモリーを利用せずにインデックスを作成することが求められる。デスクトップ検索では,仕事や遊びに使うパソコンでインデックスを作成する。負荷が高くて通常の作業に差しさわるようでは困る。確かに,夜間にインデックスを作成する手もある。しかし,夜間はパソコンの電源を落としてしまうことが多いので,現実的ではない。

 目的のファイルを見つけられるかで決まる,検索結果の精度も重要だ。キーワードに合致するはずのファイルが見つからなかったり,検索結果に含まれていても件数が多くソート順で下位に表示されていて見つけにくいようでは,ユーザーのニーズに応え切れていないことになる。