インターネットで欲しい情報を探し出すのに欠かせないのが検索サイト。新しいWebページが日々増えているにもかかわらず,検索サイトで検索し,お目当てのページにたどり着くまでの時間は短くなっているような気がする。今回は,この検索サイトがどのように進化しているのか,探ってみよう。

 検索サイトの進化はまず,検索速度の向上にある。検索サイトのしくみは,ソフトウエアや人手で集めてきたWebページをデータベース化し,ユーザーが入力したキーワードでデータベースを検索してWebサイトへのリンクを表示するというもの。ただし,Webページの情報量は膨大。大量に集められたWebページの本文を,検索のたびにそのままサーチすれば簡単なのだが,現実はそんなに甘くない。コンピュータのスピードが速くなったとはいえ,Webページの数もまたものすごい勢いで増えているからだ。

 そこで工夫がある。『インデクシング(索引化)』という技術である。インデクシングとは,集めてきたWebページをあらかじめ単語レベルに分解し,そのなかからキーワードとなる単語(索引)を抜き出してデータベース化すること。ユーザーが入力したキーワードをこうしてできた「検索データベース」で検索することで,検索スピードを上げているのだ。

 しかし,単純に検索スピードを上げただけでは。お目当てのページに早くたどり着けない。試しに「日経」で検索しても,10万件以上のWebページがヒットする。この中から自分の知りたい情報を探すのは大変。そこで登場するのがページの「ランク付け」技術だ。

 ランク付けとは,ユーザーが入力したキーワードを含むWebページの中で,どのページが一番『重要』なのかを自動的に算出し,検索結果の上位に表示させる技術。従来は,タイトル文にキーワードを含んでいるか,内容に占めるキーワードの頻度や割合はどれくらいかといったように,Webページの中身を分析することでランクを付けるのが一般的だった。そこに新風を吹き込んだ検索サイトが「Google」。Googleは,キーワードの頻度などに加え,そのページへのリンクを評価の対象にしたのである。

 Googleの技術をちょっと詳しく説明しよう。Googleでは,それぞれのWebページの重要度を,そのWebページにどれだけ多くのリンクが張られているか,そして,そのリンクを張っているページ自体もどれだけ多くのWebページからリンクを張られているかということを測定して算出する。いわば,そのWebページへのリンクを人気投票の一票と考えているようなものなのだ。すでに,Google以外の検索サイトでも,重要度の測定基準にリンクを加えている。

 ランク付けの技術は日進月歩。各検索サイトがしのぎを削っている。例えばgooでは,リンク元のWebページでリンクを張っていることを示す部分の文章に着目し,重要度を判断するヒントにしている。Lycosは,リンクだけでなく文脈解析によるランク付けを取り入れている。同じキーワードを持つWebページを分析して,それらのページによく現れるほかの言葉を探し,その言葉でさらに重要度を判断する。例えば,『スニーカー』という言葉を持つページは,靴のスニーカーに関連するページに混ざって,『文庫(角川スニーカー文庫)』という言葉があるページもある。この場合は,靴に関連した言葉があるページを上位にランクするといった具合だ。

 ランク付けの技術はまだまだこれからも進化しそう。もしかしたら,うんと曖昧なキーワードからでも,ユーザーの気持ちを推測して,目的にあったWebサイトを見つけだしてくれるような検索サイトが登場するかもしれない。

(塗谷 隆弘)

関連リンク
検索サイト「Google」
検索サイト「goo」
検索サイト「Lycos」