NOINDEXとは、検索エンジンのクローラー(検索ロボット)がWebページを巡回してきたときに、当該ページを検索エンジンのインデックスに登録されないように指定するHTMLタグの記述。例えば開発中のWebサイトを公開環境でテストする際に、検索サイトの検索結果ページにWebページが掲載されるのを防ぐことができる。
Webサイトの特定のページを検索エンジンに登録されないようにする方法は2通りある。一つは、WebページごとのHTMLコードで、メタタグとして「NOINDEX」を指定する方法。<HEAD>部で以下のように記述する。
<meta name="ROBOTS" content="NOINDEX,NOFOLLOW">
または
<meta name="ROBOTS" content="NONE">
"ROBOTS"の代わりにクローラー名を指定すると、特定のクローラーだけを拒否することができる。また「NOFOLLOW」は、Webページ中にあるリンク先をクローラーが追跡しないように指定する記述である。
もう一つの方法は、robots.txtファイルを、Webサーバーのルートに置く方法。登録の対象から外すディレクトリを下記のように指定する。
User-Agent: *
Disallow: /ディレクトリ名
この場合、ディレクトリに含まれるすべてのWebページが登録の対象から外れる。ディレクトリ名を指定しないrobots.txtファイルを使うと、Webサイト全体が登録から除外される。
メタタグを使う方法も、robots.txtファイルを使う方法も、登録削除の指示が反映されるのは、クローラーが次にWebサイトを訪れたときである。