米Googleは米国時間2008年4月11日,HTMLフォーム入力後に初めてアクセスできるWebページ(Deep Web/ディープWeb)を検索エンジンで見つけられるようにするため,数カ月前から特別なクロール(検索インデックス作成)処理を実験していると発表した。

 HTMLフォームに対するデータ入力後に表示されるWebページは,通常の検索エンジンでは発見できないため,ディープWebやHidden Web(ヒドゥンWeb),Invisible Web(インビジブルWeb)などと呼ばれる。GoogleはこうしたWebページも検索結果として表示するため,クロール処理中に「FORM」要素を見つけたら自動的にデータ入力や項目選択を行い,ディープWebへのアクセスを試みている。

 HTMLフォームのテキスト・ボックスにはそのWebサイトで使われている適当な単語を入力し,選択メニューやチェック・ボックス,ラジオ・ボタンも何らかの値を選ぶ。入力済みフォームを送信してエラー・ページ以外が表示されたら,その内容などの情報から必要に応じてインデックス化する。

 なお,あくまでも実験的な取り組みのため,取得するディープWebページは最小限に抑えており,取得結果を理由にしたWebページ重要度指標「PageRank」の減点はないという。HTMLフォームへの自動入力は一部のWebサイトでしか行っておらず,各サイトのrobots.txtによるインデックス化可否などの指定にも従っている。ユーザー名やパスワードなどの入力が必要な個人情報アクセス用HTMLフォームに対するクロール実験も行わない。

[Google公式ブログへの投稿記事]