登录

为wordpress创建有利于seo的robots.txt文件

网站建设 admin 4年前 (2014-03-26) 1985次浏览 已收录 0个评论

如果您不想让 Google 或其他搜索引擎访问您网站中的某些内容,请用 robots.txt 文件指定搜索引擎抓取您的网站内容的方式。这是google管理员工具对robots.txt功能的一个描述。

robots.txt文件说白了就是告诉爬虫哪些网址是可以被收录那些是禁止收录的。对于大多数wordpress博主来说很少注意robots.txt,认为他无关紧要,其实不然,robots.txt在wordpress优化,网站seo方面有着很重要的作用。robots.txt不光可以保护网站隐私链接不被搜索到,而且可以控制网站内容的重复和抓取错误。下面我就写几种wordpress常用的robots.txt规则。

最简单的robots.txt规则:

  1. User-agent: *  
  2. Disallow:  

这是开放式的写法,Disallow:留空,是让搜索引擎收录所有链接。

安全性的robots.txt书写规则:

  1. User-agent: *  
  2. Disallow: /cgi-bin/  
  3. Disallow: /wp-  
  4. Allow: /wp-content/uploads/  
  5. Disallow: /*.php$  
  6. Disallow: /*.inc$  
  7. Disallow: /*.js$  
  8. Disallow: /*.css$  
  9. Disallow: /*.cgi$  
  10. Disallow: /?s=  

有利于seo的robots.txt书写规则:(以本站为例)

  1. User-agent: *  
  2. Disallow: /cgi-bin/  
  3. Disallow: /wp-  
  4. Disallow: */rss.xml  
  5. Disallow: /author/  
  6. Disallow: /page/  
  7. Disallow: /tag/  
  8. Disallow: */trackback/  
  9. Disallow: */feed/  
  10. Disallow: /*.php$  
  11. Disallow: /*.inc$  
  12. Disallow: /*.js$  
  13. Disallow: /*.css$  
  14. Disallow: /*.cgi$  
  15. Disallow: /*?*  
  16. Disallow: /?s=  
  17. Sitemap: http://www.pakelab.com/sitemap.xml  

先说所我为什么这么设置。google管理员工具在分析我网站抓取错误信息的时候,发现大量链接是http://www.pakelab.com/xxxx/rss.xml的形式,为了减少抓取错误,我就让搜索不爬这些链接,Disallow: */rss.xml ,如果你没遇到和我一样的问题这一条你可以不用加。同样,如果你的网站有大量抓取错误的无效链接,你可以在这里指定不抓取。

再有就是网站元重复太严重(标题重复,描述重复,关键词重复),这严重影响搜索引擎排名,我看中的是文章页排名,所以像标签页,作者文章归档,月份存档页,分页这些我选择Disallow。因为我的文章页面在google中的权重很高,流量几乎都是文章页面的,所以才这么设置。这个根据自己网站实际情况选择性的设置。

feed和trackback的条款是一定要的,可以说wordpress 80%以上的补充材料都是和它们有关。

wordpress官方robots.txt书写规则(国外)

  1. User-agent: *  
  2. Disallow: /cgi-bin  
  3. Disallow: /wp-admin  
  4. Disallow: /wp-includes  
  5. Disallow: /wp-content/plugins  
  6. Disallow: /wp-content/cache  
  7. Disallow: /wp-content/themes  
  8. Disallow: /trackback  
  9. Disallow: /feed  
  10. Disallow: /comments  
  11. Disallow: /author/* 
  12. Disallow: */trackback  
  13. Disallow: */feed  
  14. Disallow: */comments  
  15. Disallow: /*?*  
  16. Disallow: /*?  
  17. Allow: /wp-content/uploads  
  18.   
  19. # Google Image  
  20. User-agent: Googlebot-Image  
  21. Disallow:  
  22. Allow: /*  
  23.   
  24. # Google AdSense  
  25. User-agent: Mediapartners-Google*  
  26. Disallow:  
  27. Allow: /*  
  28.   
  29. # digg mirror  
  30. User-agent: duggmirror  
  31. Disallow: /  
  32.   
  33. Sitemap: http://www.example.com/sitemap.xml  

对于自己网站情况还不太清楚的博主,我推荐用这种,没有风险,安全,有利于seo。具体内容请参考:wordpress codex

在你修改robots.txt文件时,可以用Google网站管理员工具检测一下robots.txt是否符合规范。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。


望星湖畔 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明为wordpress创建有利于seo的robots.txt文件
喜欢 (0)
[loveinghu@qq.com]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址