検索ロボットの排除
TOP----index----


WWWルートにrobots.txtというテキストファイルを置くのが一般的。

------------ robots.txtの中身 -------------------

User-agent: 排除するロボット名

Disallow: 排除するURL叉はディレクトリ(ホスト名は除く)

Disallow: 排除するURL叉はディレクトリ(ホスト名は除く)

※排除するロボット名を知るにはしたの「TAO's Home」を参考に。

・すべてのロボットに対して除外するには、1行目に

User-agent: *

・例

User-agent: ArchitextSpider

Disallow: /koko ←kokoというディレクトリを排除している。以下排除するディレクトリを列記する

Disallow: /soko

Disallow: /atuchi

・すべてのロボットとすべてのページの検索禁止

User-agent: *

Disallow: /


Robot Meta タグ

検索ロボットに検索されないようにする一番簡単な方法は
HTMLに次のようなRobotsタグを含める方法。
ただし全ての検索エンジンがこのタグをサポートしているわけでない。

また最近のロボットは、METAタグを信用しない設定になっていることが多いようだ。
例えば、METAタグに「コンピュータについて」などの内容を書く。しかし実体はアダルト
ページで、コンピュータで検索した人をアダルトページに誘う手段に使われたため。

<META NAME="Robots" CONTENT="NOINDEX">

このRobotsタグは、文書中のリンクの検索を禁止します。

※METAタグはあまり効果がない。


gooの検索ロボット一覧
http://www.ceres.dti.ne.jp/~akon/robot.htm

TAO's Home--「ロボットの人はココを押す」からロボットに関する情報にhttp://home.att.ne.jp/gold/tao/
http://www.microvision.co.jp/chkrobot.html



TOP----index----