15903608907


如何提高网站的抓取率

  2018-12-28 10:37:55      admin      199

对于搜索引擎而言,爬虫效率的一个重要评价标准就是爬虫开销。

Dasgupta等人将爬虫开销定义为:爬虫开销=重复抓取的老页面数/发掘的新页面数。那么,爬虫的抓取频率以及效率该如何优化呢?下面进行具体介绍。

首先,以robots.txt命名的文本文件是个很强的利器,当网站上拥有重复内容、无内容且无意义页面等类似内容的时候,就可以果断地用robots.txt屏蔽掉。这里需要注意:robots.txt文件可以用通配符书写,书写是比较自由的。建议把xml格式的sitemap路径放在robots.txt文件中,供搜索引擎寻找。

其次,当需要合理地、有效率地下载一个网站时,设置参数nofollow,可以让百度搜索引擎不抓取页面上的所有链接。在robots.txt文件中添加rel=“noindex”语句,不能阻止百度爬虫抓取,因为noindex参数可以让搜索引擎不把当前网页置入索引库,但是页面上所有的链接,爬虫都会去分析。若要屏蔽链接,要加上nofollow参数。

总之,提高爬虫的抓取效率在SEO之中是一件比较重要的事情,尤其对于中大型网站而言,应该将大部分精力放在让爬虫抓取更多更准的页面上,而不是让它抓到无意义的页面。


上一条 新站的优化应注意以下几点
下一条 做网站优化就要掌握搜索引擎变化规律

三猫网络:为您提供网站建设、小程序开发、网站优化、全网营销一站式推广服务!

 

相关资讯 Releva ntnews
解决方案 Solutions

  1. 我们的承诺
  2. 我们的实力
  3. 我们的未来
服务热线

15903608907

联系电话:15903608907 0371-56680133

地址:河南省郑州市二七区航海路与兴华街交叉口西北角升龙城二七中心A座1623

版权所有:河南三猫网络科技有限公司

QQ咨询
在线咨询
官方微信
关注微信
联系电话
15903608907
预约上门