ヤフーが提供するポータル・サイト「Yahoo!Japan」が,2005年10月3日に検索エンジンを一新した。これまで人手で情報を分類/登録しておく「カテゴリ検索」を中心としていたが,データを収集するプログラム(ロボット)がWebサーバーを巡回して集めたページを全文検索するスタイルに変えた(画面[拡大表示])。
Yahoo!といえば,カテゴリ検索の先駆者として知られる存在。それが検索エンジンを切り替えた背景には,Web検索をめぐる状況の変化がある。
インターネット検索は,1994年にYahoo!が始めたカテゴリ検索に端を発する。その後ロボット型の検索エンジンも登場し,網羅性の高さが評判となった。しかし検索ノイズが多く,信頼できるWebページを選別し分類するカテゴリ検索の方が情報に効率よくたどり着けたうちは,Yahoo!が優位だった。現在では,ロボット型でも有益なページを検索結果の上位に出せるようになってきた。逆にカテゴリ検索は,網羅性の面で不足が目立つ。
そこでYahoo!は,2002年ごろからロボット型の全文検索エンジンの開発に本腰を入れていた。まず,検索分野で実績のある米Inktomi社や米Overture社を買収した。Overtureは,ノルウェーFAST社の検索サービス部門「AlltheWeb」と,米AltaVista社を買収済み。これらの技術を基に新たな検索エンジンを開発し,「YST(Yahoo! Search Technology)」の名で公開したのが2004年2月。Yahoo!JapanはYSTに日本語対応などを施し,ベータ版として公開していた。
人手で付与した情報が差異化のカギ
ロボット型検索エンジンの分野には,米Google社の「Google」や米Microsoft社の「MSN Search」など強豪がひしめく。そんな中でYSTを差異化するカギとなるのは「カテゴリ検索によって蓄えられたデータ」(ヤフー リスティング事業部 検索企画室の宮崎光世プロダクトマネージャー)だ。
検索エンジンの大命題は,ユーザーが入力した検索キーワードに適合するデータを,漏れやノイズをできるだけなくして提示すること。「現在公開されている主要なロボット型検索エンジンを比較してみると,その仕組みはどれも大きな違いがない」(宮崎氏)。Googleの「PageRank」のようなリンク解析をはじめ,どのエンジンもさまざまな情報をパラメータとして使い,結果を出している。YSTでも,数千にのぼるパラメータを利用しているという。
YST独自の強みは,人手で付与したカテゴリ検索用のデータを有効に使えることだ。例えば「B2Bに強い会社」と入力すると,通常の全文検索では「B2B」という言葉が含まれたページしか出せない。カテゴリ検索の情報を使えば,人間が見てB2B関連の会社であると判断したページも提示できる。
今後はページ内容の分析へ
さらに先を見据えた研究開発も始めている。今後は「単なるキーワード一致でなく,Webページの内容を認識して結果を出す技術が求められる」(宮崎氏)。現在,そのページがどんな話題に関するものか分析する技術の開発に取り組んでいる。現状はアダルトサイトなど上位に表示したくないページを判別する程度しかできていないが,将来的にはもっときめ細かな解析を実現したいという。
また,カテゴリ検索もこれまで通り続けていく予定だ。あるテーマについて役立つページを探したいときに,人手で分類した情報の信頼性はやはり高い。また「モバイル機器やリモコンなどキーボードを使えない環境でも,カテゴリ名をクリックするだけで情報を探せるメリットは大きい」(宮崎氏)。