WordPress博客网站常用Robots.txt规则

2017 年 10 月 04 日

7473 次浏览

1335 字数

说明：我们有时候页面有些内容由于某些因素，都要防止被搜索引擎收录，而禁止搜索引擎收录比较简单的办法是在Robots.txt里设置规则，Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。这里说下方法。

这里以WordPress博客网站为例，在网站根目录Robots.txt里添加如下规则：

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /attachment/

下面分别解释一下各项的作用：

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。

2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。

3、Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback
禁止搜索引擎抓取收录trackback等垃圾信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取收录feed链接，feed只用于订阅本站，与搜索引擎无关。

6、Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果

7、Disallow: /attachment/
禁止搜索引擎抓取附件页面，比如毫无意义的图片附件页面。

上面只是些基本的写法，当然还有很多，不过够用了。当然像Typecho、Emlog，Zblog这些博客就自己看着办，方法一样。

版权声明：本文为原创文章，版权归 Rat's Blog 所有，转载请注明出处！
本文链接：https://www.moerats.com/archives/338/
如教程需要更新，或者相关链接出现404，可以在文章下面评论留言。

WordPress博客网站常用Robots.txt规则

发表评论取消回复

CTList：一个可以绑定多个天翼云网盘的目录列表程序，支持视频播放

博客将不定期赠送DigitalOcean $50优惠码

VPS上传文件到OneDrive网盘脚本，可配合Aria2实现自动上传

免费申请一年期限的AlphaSSL泛域名证书

Aria2+Rclone+DirectoryLister+Aria2Ng一键安装脚本 for Debian

一款支持多账户的Web管理面板：CyberPanel安装教程

Verstory：可以查询各种开发框架/程序语言/CMS/软件/系统等最新版本的网站

Vultr VPS快速安装Windows 7及其它系统教程

Nginx环境使用auth_basic密码保护wordpress后台登录界面

一款跨平台的快速，简单，干净的视频下载器：Annie，支持Bilibili/Youtube等多个网站

发表评论 取消回复

发表评论取消回复