1. メモ帳日記 >
  2. Web >
  3. robots.txt

メモ帳日記

日記書いたりメモ書いたり

2007年 8月 31日(先勝

robots.txt

このサイトでも robots.txt はもちろん使っている。bot を Disallow: / にする基準は自分で二つ決めている。

  1. robots.txtDisallow の記述を守るか?
  2. 守っていたとしても、アクセスの間隔などが妥当なものであるか?

平たく言ってしまえば、行儀の悪い輩を追い出してると言ったところ。追い出し方は、robots.txtDisallow: / として禁止令を出し、かつ .htaccessrobots.txt 以外にアクセスできないようにするという嫌がらせ的なやり方。これをやると、robots.txt 以外では 403 で弾かれる。それなのに、Baiduspider は数週間にわたってアクセスし続けた。ほんっとに行儀が悪い。

一応 robots.txt を見やすくしてみる。ついでに .htaccess の一部も。ちなみに、deny の後半部分はウィルスバスターの糞機能を弾くためのもの。

  1. User-agent: *
  2. Sitemap: http://bsakatu.s201.xrea.com/sitemap.xml
  3. Sitemap: http://bsakatu.s201.xrea.com/sitemap_mt.xml
  4. Disallow: /cgi-bin/MT4i/
  5. Disallow: /x/
  6. Crawl-delay: 20
  7. User-agent: baiduspider
  8. Disallow: /
  9. User-agent: Twiceler
  10. Disallow: /
  11. User-agent: YodaoBot
  12. Disallow: /
  13. User-agent: MaSagool
  14. Disallow: /
  1. SetEnvIf User-Agent "QihooBot" Badbot
  2. SetEnvIf User-Agent "Baiduspider" Badbot
  3. SetEnvIf User-Agent "Twiceler" Badbot
  4. SetEnvIf User-Agent "YodaoBot" Badbot
  5. SetEnvIf User-Agent "MaSagool" Badbot
  6. order allow,deny
  7. allow from all
  8. deny from env=Badbot
  9. deny from 66.180.82.81/28
  10. deny from 128.241.20.81/28
  11. # deny from 66.35.255.81/28
  12. deny from 128.241.20.211/28
  13. <Files robots.txt>
  14. allow from all
  15. </Files>