一般的に,順序決定には検索語の出現頻度やリンク数などが使われる。検索語を多く含むページを上位の情報にするのが基本である。ただしその語が他の文書にも頻繁に出てくる語か,あまり出てこない語かで重みが変わる。例えば「雑誌」と「日経バイト」という二つの語を検索語にした場合,「雑誌」は多くの文書が含んでいるが「日経バイト」を含む文書はそれよりも少ない。この場合,「雑誌」よりも,「日経バイト」をいくつ含むかの方に重みを持たせて,表示順序を変化させる。

 リンクについては,多くの文書からリンクが張られているものが上位にくる。それだけ認知度が高く,優れたページだという考えに基づく。

 ただしこれらの情報だけでは,検索結果の上位に表示させるためにページを作り込むことが可能になる。特定のキーワードを文書中にちりばめたり,ダミーのページを作って互いにリンクを張ったりするなどの方法である。このように工作されたページが上位にくると,ユーザは求める情報を集めにくく感じ,そのエンジンを使わなくなる。

図3●PageRankの概念図。
リンク元となるページの価値を,そのページが張っているリンク数で割ったものが,リンク先のページの価値となる。例えば100ポイントのページは二つリンクを張っているので,リンク先のページには50ポイントずつが加算される。同じように,9のページは三つリンクを張っているので,9の1/3の3ポイントとなる。このように,価値のあるページの厳選されたリンク先に選ばれたページは,非常に多くのポイントを獲得できる。Googleの創設者Lawrence Page氏によるPageRankのプレゼンテーション資料を元に作成

 Googleは独自の方法で,この問題を解決している。それが「PageRank」と呼ぶ仕組みである。

 Googleでも多くリンクが張られているページの重要度は高い。しかしPageRankでは,ただ数を数えるだけでなく,一つひとつのリンクに価値(重み)を持たせている。リンクの価値は,次の二つの要素で決まる。(1)どのページから,(2)どのようにリンクが張られているか,である(図3[拡大表示])。

 例えば100の価値を持ったページと,9の価値を持ったページがあったとする。この価値の違いが,そのままリンク先のページにも反映される。これが(1)にあたる。さらに,そのページが張ったリンク数も計算に使われる。100のページからは二つのリンクが張られているとすると,そのリンク先にはリンク元のポイントをリンク数で割った値,つまり50が加算される。一つのページが多くのリンクを張っていた場合ポイントは下がり,厳選された少ないリンク先の一つに選ばれた場合はポイントが上がるのである。これが(2)に該当する部分だ。実際にはこのアイデアをベースに,さまざまな数値解析を施して価値を計算する。これによってYahoo!のように高い認知度と信頼性を持つページの価値は高くなり,個人がお遊びで作った情報量の少ないページの価値は低くなる。

 PageRankで検索結果の上位を狙うのは難しい。ダミーのページを作ってリンク数だけ増やしても,ダミーのページには価値がないためポイントが上がらないからだ。権威ある認知度の高いページからリンクを張ってもらう必要がある。そのためには,内容を充実させなければならない。つまり結果的に,上位にくるページはそれだけ情報価値のあるページである可能性が高くなる。

「質」を動的に変えてGoogleを追う

 ただし,情報の「質」は場合によって違う。探す内容によって,権威とされるべきページは変わってくる。この考え方を使ったサーチ・エンジンも登場している。情報の質を動的に変化させるエンジンの登場は,かつてのGoogleのように,既存のエンジンを脅かすものになる可能性もある。

 その一つが「WiseNut」である。あるページに張られているリンクの周囲にある言葉を解析して,検索語との関連を順位付けに使うのが特徴だ。GoogleのPageRankではページが持つ価値は常に同じだが,この方法を採れば検索語ごとに重みが変わる注3)

 リンク情報を解析に使うサーチ・エンジンには「Teoma(テオマ)」もある。Teomaは,検索語を含む文書の集合ごとにページの重み付けを計算している。

図4●Teomaの検索結果。
Googleに似て表示がシンプルである

 さらにこの二つのエンジンは,検索結果にどんな種類の情報が多く含まれるかを提示することで,求める情報にたどり着くまでの時間と労力の軽減を図る。WiseNutは「WiseGuide」,Teomaは「Refine」という名前を付けている。

 例えばTeomaで「Search」で検索する(図4[拡大表示])。Refineには「Search Engines」「Advanced Search」などといった情報(サブジェクトと呼ぶ)が検索結果の中に含まれていることがわかる。ここに上げられた情報は,あらかじめTeomaで用意しているものだ。これにより,検索結果の傾向を概観できるし,それを絞り込むのにも使える注4)

 サブジェクトに何を用意し,そのサブジェクトにどんな語句を含む情報を適合させるかという条件はある程度人手で設定しておく。「すべてを人手で設定するわけではない。人手による最初の設定を種として成長させていく仕組みが入っている注5)」(米Teoma Technologies社を買収した米Ask Jeeves社の日本法人,アスクジーブスジャパン 技術部 テクニカル・ディレクターの樋口将嘉氏)。

(八木 玲子)