WordPress网站正确设置robots.txt规则

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

WordPress网站正确设置robots.txt规则-58源码

  Robots.txt文件的作用是什么?

每一个被爬行的网站都有一个爬行预算。爬行预算主要是搜索引擎在任何给定时间都可以爬行的有限页面数量,谁都不想把爬行预算浪费在低质量,垃圾的或不重要的页面上。这就是robots.txt文件的作用,可以使用robots.txt文件指定搜索引擎应该忽略哪些页面、文件和目录(以及其他搜索引擎),允许搜索引擎机器人把重点放在重要高质量的内容上。

下面是一些可以考虑在WordPress网站上屏蔽的重要事情:

分面导航和会话标识符

现场重复的内容

软错误页面

被黑的页面

无限的空间和代理

低质量和垃圾内容

robots.txt文件通常存放在网站根目录,想要搜索引擎搜索想要展示的页面,正确编写robots.txt文件很重要。

robots规则

robots文件头部规则:

robots.txt文件的开头为User-agent:,用来指定搜索引擎蜘蛛。

User-agent:Baiduspider //针对百度搜索蜘蛛

User-agent:googlebot //针对谷歌搜索蜘蛛

User-agent: * //*表示全局变量,针对全体搜索引擎起作用

Disallow规则:

Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。

Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。

Allow规则:

Allow定义允许搜索引擎收录的地址。

Sitemap规则:

Sitemap用来告诉搜索引擎网站地图的位置,其中sitemap.xml是你的网站的网站地图文件。

常见Robots

google蜘蛛: googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛: lycos_spider_(t-rex)

alltheweb蜘蛛: fast-webcrawler/

inktomi蜘蛛: slurp

总结WordPress全部robots.txt配置

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /feed

Disallow: /articles/*/feed

注意事项:

避免收录WordPress系统文件

避免收录重复的内容

正确引导搜索引擎找到网址地图

1、升级本站永久VIP,仅需【88】元即可升级 ! ! ! (升级后永久享受整站资源全部免费下载)

2、站内下载币均可通过签到等任务进行免费兑换。

3、站内资源均来源于网络公开发表文件或网友投稿发布,如侵犯您的权益,请联系管理员处理。

4、本站所分享的源码、模板、软件工具等其他资源,都不包含技术服务,请大家谅解!

5、所有资源均收集于互联网仅供学习、参考和研究,请理解这个概念,所以不能保证每个细节都符合你的需求,也可能存在未知的BUG与瑕疵,因本站资源均为可复制品,所以不支持任何理由的退款兑现(特殊情况可退积分),请熟知后再支付下载!


58源码 » WordPress网站正确设置robots.txt规则
  • 2020年7月13日Hi,初次和大家见面了,请多关照!

发表评论

  • 92会员总数(位)
  • 1303资源总数(个)
  • 76本周发布(个)
  • 46 今日发布(个)
  • 130稳定运行(天)

58源码下载站58DIR.CN,专为草根站长提供建站服务的平台

开通VIP 本站模板
© 2020 WWW.58DIR.CN & 58源码下载站 皖ICP备19006847号-2