クローラー(ボット)の動きを制御する

仕事であるサイトのアクセスログを見たところ、クローラー(以下ボット)からのアクセスしかない状態でした。
ただ、ボットによってはマナーのなってない珍走団みたいなの物が存在しています。

 

珍走団の場合には制御できないので、対象IPアドレスを拒否するなどが一番でしょうが、一般的なボット(Google、MSNなど)はある程度マナーがあります。

その様なボットの場合には、robots.txtを設置することで動作をある程度の範囲で制御することが可能です。

 

では早速、robots.txtを作成し設置してみましょう。
記述する項目は、次の3つだけです。

  • アクセスを制御するクローラ
  • アクセスを許可 or 拒否
  • アクセスを制御するディレクトリ/ファイル

 

実際に設定する際には、下記のように記述します。
全てのボットからのアクセスを許可
[code]
User-Agent: *
Allow: /
[/code]

 

全てのボットからのアクセスを拒否
[code]
User-Agent: *
Disallow: /
[/code]

 

特定のディレクトリ(/secrets)のみアクセスを拒否
[code]
User-Agent: *
Disallow: /secrets
[/code]

 

ユーザーエージェントについては、主に下記の3つを設定することが多いと思います。

  • Google:googlebot
  • Yahoo!:Slurp
  • MSN Live Search:msnbot

 

robots.txtの設置場所ですが、ルートディレクトリとなります。
ルートディレクトリ以外に置いた場合の動作は、保証されていません。

 

また、メタタグを利用して同じ動作を設定することも可能です。


 

<a>タグにrel属性を設定することで、リンク先を辿らせない様にすることも可能です。


 

上記の設定をしっかり行い、ボットの動きを制御しつつサイトの徘徊を行ってもらいましょう!

コメント

タイトルとURLをコピーしました