十年风雨路 · 一心铸精品

接一个官网 留一件精品 做一个项目 树一块样板

如何阻止垃圾蜘蛛的抓取

作为一个网站的负责人,你是否有关注过IIS日志的信息详情?如果没有,我敢肯定你网站的不少带宽都被所谓的蜘蛛占去了,即使你的带宽很猛,不在乎那么点流量,但是从优化到极致来说,这都是远远不达标的。蜘蛛分为真假蜘蛛,一般大型搜索引擎的蜘蛛,如百度、谷歌的蜘蛛,假蜘蛛一般

时间:2013年10月27日 点击量:

作为一个网站的负责人,你是否有关注过IIS日志的信息详情?如果没有,我敢肯定你网站的不少带宽都被所谓的蜘蛛占去了,即使你的带宽很猛,不在乎那么点流量,但是从优化到极致来说,这都是远远不达标的。
蜘蛛分为真假蜘蛛,一般大型搜索引擎的蜘蛛,如百度、谷歌的蜘蛛,假蜘蛛一般归总为垃圾搜索引擎和恶意抓取程序。其中百度蜘蛛的真假分析,你可以通过语法“ nslookup ip”,查看来源是否是百度的子站点,如果不是,那么就是伪装的百度蜘蛛。如果仔细分析,你会发现一些国内或国外的蜘蛛,例如 EasouSpider、AhrefsBot等,这些蜘蛛都是没有什么用的,如果你面向的市场是国内的,百度 BaiduSpider,谷歌 Googlebot,360 360Spider,soso Sosospider,搜狗Sogou+web+spider,保留这几个蜘蛛的抓取就足够了,其他的蜘蛛一律屏蔽掉就行了,还有把你的静态资源,如Image和JS、CSS的路径也屏蔽掉,这些资源都是不需要蜘蛛抓取的,因为没有展现的价值;
具体如何加屏蔽呢?你可以手动新建一个robots.txt文件,放到网站根目录下,内容填写例如:User-Agent: AhrefsBot Disallow: / ,表示不允许AhrefsBot蜘蛛抓取任何页面,其他的屏蔽都可以类似这样填写;如果你不会填写内容,你也可以到百度站长平台上,直接生成robots.txt文件,地址为:http://zhanzhang.baidu.com/robots/index ,然后将文件更新到网站根目录即可;例如我之前查看日志发现了一些垃圾蜘蛛,直接才去屏蔽措施,robots设置如下:

点击浏览下一页 
这样屏蔽不必要的蜘蛛抓取,便可以轻松实现避免浪费带宽和流量,当然这对于遵循互联网协议的网络公司来说,是非常有效的办法,也不排除存在一些不遵循行业标准的恶意抓取程序,要禁止这些,只能是在确切证据证明下,直接对Ip进行屏蔽,才能行之有效了。

推荐案例

  • 成都森美啦园林绿化工程公

  • 四川尚恒科技有限公司

  • 成都九邦物流有限责任公司

  • 四川品睿餐饮管理有限公司

  • 美绘陶社陶艺手绘工作室-暖

  • 成都恩多施生物工程技术有

  • 汶川羌人土特产有限公司

  • 印刷设计公司网站No.3138

联系我们 / CONTACT US

  • 四川省成都市金牛区五福桥东路229号龙湖北城天街28栋903室
  • 服务热线:400-000-2367 028-86088588
  • 总机:028-62322623-0
  • 传真:028-62322623-823

扫码访问冠辰手机网站

版权所有 Copyright © 2002-2019 四川冠辰科技开发有限公司  www.scgckj.com 保留所有权利  蜀ICP备11012605号

地址:四川省成都市金牛区五福桥东路229号龙湖北城天街28栋903室

服务热线:400-000-2367 028-86088588 总机:028-62322623-0 传真:028-62322623-823