十年风雨路 · 一心铸精品

接一个官网 留一件精品 做一个项目 树一块样板

如何精准查询究竟哪些页面被搜索引擎删除了?

RT。在一个数据量足够庞大的网站中,使用遍历记录的方法查询网站页面的收录情况几乎是不可能的。由于收录删除有可能由很多原因引起,所以查清楚究竟哪些页面被删除了就十分重要了。请问大家有什么好方法,能够精确的定位究竟哪些页面在上一次的更新中被删除了呢?求赐教。查

时间:2014年02月21日 点击量:

RT。
在一个数据量足够庞大的网站中,使用遍历记录的方法查询网站页面的收录情况几乎是不可能的。
由于收录删除有可能由很多原因引起,所以查清楚究竟哪些页面被删除了就十分重要了。
请问大家有什么好方法,能够精确的定位究竟哪些页面在上一次的更新中被删除了呢?
求赐教。

 

查服务器日志可以看到每日百度蜘蛛爬过哪些 URL,这是能精确统计的。
百度收录必然包括在百度蜘蛛爬过的 URL 记录里。
可以算下收录与爬行 URL 比例。


几百万的收录,对于每天掉的链接统计来讲,确实是一个问题,但还有一个问题是,既然有几百万的收录,即使掉了几十万的收录,也不会影响网站的大局,对于您想知道哪些URL被删除,来讲,也没有太大的意义。大致的了解一个删除的方向足以为今后的网推广做出明确的方向了。

百度的变化是十分快的,没准今天删除了的URL,在明天又会被重新收录,那么统计出了详细的删除URL到了第二天,又需要去统计,这无疑为您的工作添加了更多不必要的麻烦。几百万的收录,也不必在意几十万的数据变化了。即使减少了100万的收录,那又有何影响呢?如果减少再多,可能就是你网站的问题了。

 

谈谈我的看法。之前在另外一个公司的时候,是一个收录只有几十万的网站,我们每个周都会统计蜘蛛爬行日志,当然并不是统计整个周的,而是统计当天前一天的日志。然后规整分类,每个栏目做成不同的表格。这样做的目的只有一个,就是统计、对比百度更新前后每个栏目被爬行的url的数量。虽然这并不代表收录,但是,一旦百度更新收录急剧下降,据此就能大致的判断,是哪个栏目的爬行数量减少,那么就可以重新审核下这个栏目。
不知道像你们这样的大网站,这样的方案可不可行。只是统计数量,对比数量。

 

一下子掉了几百万的收录数据,想通过相关软件获取被删除的页面,几乎不太可能。除非百度站长平台给出详细收录数据下载,否则很难获取你要的内容。

如果你的目的只是寻找被删除页面的 原因,建议可以用采样法:

1、按照时间段、文章类别分类,列出N个数据。
2、在N个数据中,每个数据抽取M个页面形成L集合
3、对L集合进行统计,每次更新,看看被删除的页面属于哪一个列别、哪一个时间段的

推荐案例

  • 成都森美啦园林绿化工程公

  • 四川尚恒科技有限公司

  • 成都九邦物流有限责任公司

  • 四川品睿餐饮管理有限公司

  • 美绘陶社陶艺手绘工作室-暖

  • 成都恩多施生物工程技术有

  • 汶川羌人土特产有限公司

  • 印刷设计公司网站No.3138

联系我们 / CONTACT US

  • 四川省成都市金牛区五福桥东路229号龙湖北城天街28栋903室
  • 服务热线:400-000-2367 028-86088588
  • 总机:028-62322623-0
  • 传真:028-62322623-823

扫码访问冠辰手机网站

版权所有 Copyright © 2002-2019 四川冠辰科技开发有限公司  www.scgckj.com 保留所有权利  蜀ICP备11012605号

地址:四川省成都市金牛区五福桥东路229号龙湖北城天街28栋903室

服务热线:400-000-2367 028-86088588 总机:028-62322623-0 传真:028-62322623-823

川公网安备 51010602001006号