• 百度和Google真得平分天下吗?

    2007-05-22

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
    http://donyily.blogbus.com/logs/5470579.html

         众所周知,国内的搜索引擎爬虫是恶名昭著的,不遵守行业规则,不尊重robots.txt的规定,其疯狂的爬网页行为对缺乏安全抵抗机制的中小互联网站往往是灭顶之灾。

      就是JavaEye网站也时不时遭受流氓爬虫的困扰,流氓爬虫包括了百度,雅虎中国等所谓的大公司。至于名气稍小一点的爬虫,那就更加肆无忌惮了。JavaEye网站曾经连续封杀了两个C类IP地址段以杜绝其流氓行径。

      但是没有想到啊,中国的流氓爬虫已经把黑手伸向了国外,恶名已经扬名在外了。

      我们来百度和谷歌进行一下比较:  

    1、搜索引擎市场被证明有很高的商业价值,众多的国内厂商都在抢这个市场,包括搜狐,百度,雅虎中国,奇虎,中搜等等一大堆厂商。搜索引擎要战胜竞争对手,一个很重要的制高点就是宣布自己搜索了多少个网页,前不久搜狐不就号称搜索的页面已经超过了百度吗?这势必造成各个搜索引擎的“军备竞争”,互相攀比谁搜索的网页更多。造成的直接后果就是肆无忌惮的放爬虫来爬网站。

    2、爬网页即要多,又要准,其实需要很高技术能力和很丰富的服务器资源。

    举例来说,Google索引的JavaEye网页不过10万,因为他能够甄别内容相同的页面,能够甄别内容的等级,也能够准确定位有效资源,所以它不需要爬那么多网页,也不需要那么频繁的爬,就可以完成任务。但是百度索引了JavaEye40多万网页,其爬虫显然技术水平要逊Google一筹。由于它需要多爬三倍于Google的网页,所以他必须比Google爬的速度至少快三倍。

    Google全球几十万台服务器,能用来做爬虫的服务器估计至少是百度的n倍,如果要爬同样多的页面,自然服务器越少,你就需要每台服务器爬的越快,所以百度爬虫经常一个IP地址放出来上百个爬虫来爬你的网站,但是Google从不对同一个网站同时放两个爬虫。这就说明了至少爬中文网站的服务器,百度的爬虫服务器比Google少了30倍以上,又由于百度要爬Google4倍的网页,所以百度每台服务器至少要以100倍于Google的速度爬网站,这样才能赶得上Google爬网页的效果。所以Google放一个爬虫,百度就得放100个爬虫。

    至于国内那些比百度技术更烂的公司,当然必须放出比百度多很多倍的爬虫,才能达到同样的效果。这就是为什么越是好的搜索引擎,越不会对你的网站造成干扰,而越烂的公司其爬虫越流氓的原因了。

     


    收藏到:Del.icio.us