一篇内容告诉你网站robots、url、nofollow是什么,该如何使用?
发布作者图 robots文件 发布时间图标 2022-05-24 关键词图标 robots,nofollow
一篇内容告诉你网站robots、url、nofollow是什么,该如何使用?一篇内容告诉你网站robots、url、nofollow是什么,该如何使用?

Robots

定义:搜索引擎协议。是搜索引擎蜘蛛来到网站后第一个抓取的文件(robots.txt文件)。

文件包含:

  1. allow 允许抓取
  2. disallow 不允许抓取

Disallow不建议写太多,写多了极有可能会造成站点描述显示:由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述!

建议写入不允许抓取

  1. 动态页面:即 Disallow: /?
  2. 敏感页面:例如被挂马的页面等。新建一个文件,将挂马页面链接/链接规则写入文件内,并上传至站点根目录后在robots文件内写入不允许抓取规则。即Disallow: www.xx.com/laji.txt

网站的任何页面千万不要删除!可以改页面,把标题、内容都替换掉。这么做完会发现网站关键词排名及权重及流量会大幅度上涨~

被挂马/黄赌毒的网站,外部链接数据会大量增加!造成这个原因就是因为掉入了蜘蛛池,我们可以合理利用这些外链,提升网站的关键词排名

建议多写入允许抓取

  1. 重要页面
  2. 不收录的页面(新建一个文件,将未收录的页面链接写入文件内,并上传至站点根目录后在robots文件内写入允许抓取规则。即Allow: www.xx.com/zhuaqu.txt)

Nofollow

定义:告诉搜索引擎nofollow的页面不重要不要传递权重,但可以抓取。

网站nofollow不易过多!nofollow过多的页面收录、排名都不是很好!

URL优化

url优化是重中之重!

抓取:

  1. 自动抓取:根据需求主动抓取网页内容
  2. 被动抓取:根据链接或提交抓取网页内容

主动抓取是根据某些特征来抓取的!(大平台并不存在蹲守蜘蛛)特征分为url特征及内容特征。

URL特征:厂家16___0___016______016_________0___016______016______、借势吸引蜘蛛(例如url带其他站的品牌或者域名www.xx.com/baiducom)

现在URL长短已经不影响收录了,只要主要下层级就可以了。

将标题类似的更新到同一目录下(标题、链接就会形成规则),可以减短搜索引擎蜘蛛分析爬取时间,做到一把抓!