搜索引擎的蜘蛛 - 博客文章 - 任霏的个人博客网站

一、各大搜索引擎蜘蛛的名字

google蜘蛛： googlebot

百度蜘蛛：baiduspider

搜狗蜘蛛：sogou spider

搜搜蜘蛛：Sosospider

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

altavista蜘蛛：scooter

lycos蜘蛛： lycos_spider_(t-rex)

alltheweb蜘蛛： fast-webcrawler

inktomi蜘蛛： slurp

有道蜘蛛：YodaoBot和OutfoxBot

热土蜘蛛：Adminrtspider

当然这里只是象征性的列一下，就算我们分析日志的时候看到了也不要太奇怪，又或者你想禁止它们爬你的站点也是可以的。

二、总结一下蜘蛛的习惯

google蜘蛛：不太爱爬，但爱收录。

百度蜘蛛：爬谨慎，收录更谨慎。

搜搜蜘蛛：爱爬图片，经常绕在动态地址里出不来。

雅虎蜘蛛：恪守规则，每次都是先爬robots.txt。

其他的就不说了。

三、对于robots.txt的支持程度

全部都说不太现实，这里拿Disallow: /*?*举例(禁止动态页面抓取)。

google表现：写了禁止就不再爬，会在谷歌站长工具中列出来它想爬被你阻止了哪些。

百度的表现：写了禁止之后很少爬，但是偶尔也会爬，相信是起作用了，因为越来越少，以前一天几次现在几天一次。

搜狗蜘蛛：可以说是基本不听话，也不知道是不是不吃这个规则，说它完全不吃它也吃了一点，只是把动态地址的问号拿掉了，然后照爬，一爬就是一大片，这不知道它能爬出什么东西。

搜搜蜘蛛跟雅虎蜘蛛好像差不多，感觉还是挺有效的，禁止之后没有再有它爬过的痕迹

相关推荐