十年风雨路 · 一心铸精品

接一个官网 留一件精品 做一个项目 树一块样板

蜘蛛爬行死循环如何解决?

我的网站,蜘蛛一直都在抓取筛选器哪里的链接,5千条爬行记录有4800是在爬那个筛选器的链接,有效内容页几乎不爬。把那个筛选器里面的链接全NF掉貌似也没什么作用。该如何解决呢?一般通过屏蔽蜘蛛改善收录有几种靠谱的方法:①nofollow+robots.txt②js封装③页面缓存(Last-m

时间:2014年04月04日 点击量:

我的网站,蜘蛛一直都在抓取筛选器哪里的链接,5千条爬行记录有4800是在爬那个筛选器的链接,有效内容页几乎不爬。把那个筛选器里面的链接全NF掉貌似也没什么作用。该如何解决呢?

 
一般通过屏蔽蜘蛛改善收录有几种靠谱的方法:
① nofollow + robots.txt
② js封装
③ 页面缓存(Last-modified + Etag)
④ 调整链接入口(数量 + 位置)

基于你网站的情况,个人认为最适合第四种方法。

至于具体原因,“国际会展”频道内容总数497,各种筛选条件组合后数量轻松上万。也就是说内容总数不多,但筛选条件却不少,以目前的内容数量还不足以支撑这么多的筛选条件,结果是导致绝大多数的筛选结果页都是空的。你可以看下一礼拜内抓取的筛选结果页其中没有内容的能占多大比例,估计不少。。。

所以说你这问题原因不是蜘蛛不抓,而是没得抓。什么nofollow、js之类的自然没用,因为原因没找对嘛。。。

改善抓取的个人建议:
1.调整筛选条件的展现规则,只允许有内容的筛选条件才能展现在前端中
2.增加筛选结果页中内容详情页的调用数量(增加详情页抓取概率,本身数量就不多的,就甭弄啥分页了)
3.充实详情页内容(信息量少、无更新、没给同类相关页面提供链接,所以蜘蛛不会定期重访)
4.筛选结果页TDK修改(上万的筛选页TDK都是一样的。。。。)

推荐案例

  • 成都森美啦园林绿化工程公

  • 四川尚恒科技有限公司

  • 成都九邦物流有限责任公司

  • 四川品睿餐饮管理有限公司

  • 美绘陶社陶艺手绘工作室-暖

  • 成都恩多施生物工程技术有

  • 汶川羌人土特产有限公司

  • 印刷设计公司网站No.3138

联系我们 / CONTACT US

  • 四川省成都市金牛区五福桥东路229号龙湖北城天街28栋903室
  • 服务热线:400-000-2367 028-86088588
  • 总机:028-62322623-0
  • 传真:028-62322623-823

扫码访问冠辰手机网站

版权所有 Copyright © 2002-2019 四川冠辰科技开发有限公司  www.scgckj.com 保留所有权利  蜀ICP备11012605号

地址:四川省成都市金牛区五福桥东路229号龙湖北城天街28栋903室

服务热线:400-000-2367 028-86088588 总机:028-62322623-0 传真:028-62322623-823

川公网安备 51010602001006号