你网站的robots工作做足够了吗

作者：秋了秋发表时间：2014年07月27日

seo有一个很重大的环节很容易被站长忽视，那就是robots.txt，这个文件是搜索引擎蜘蛛爬行你的站点的首要之门，robots没写好将会给你的站带来很大的影响。

据我观察发现很多wp用户人压根对这方面没有做足工作，甚至有的站直接就是没有这个文件。robots是一个约束蜘蛛爬行的规则文件，我们都希望蜘蛛能够抓取我们的文章页面，而不希望它抓取其它鸡肋网页，鸡肋网页多了，很影响用户体验。很多人认为，这样可以增加收录量，没错收录量是挺多的，但是没有价值的一大堆，特别是有一些高度重复的页面被抓取了，一旦被搜索引擎发现，很容易k站。如若抓取一些内部文件，还容易给黑客造成可乘之机，比如说wp的内部文件/wp-*/和/wp-login.php?。

没事多关注一下自己网站被搜索引擎收录了哪些页面，昨天我site了一下我的网站，发现收录的鸡肋文件还是挺多的，而且一些没必要的也会收录进来，特别是360，只要是有点权重的页面，它就会把该页面的所有链接都收录下来，包括评论里面的回复按钮链接，有多少个回复链接就收录多少个页面。比如说这种：//netblog.cn/liuyanban?replytocom=886，因为每一个回复链接都对应一个id，所以在搜索引擎看来每一个链接都是不同的链接，所以造成同一个页面收录十几甚至几十条记录。这样的情况不仅易造成让搜索引擎认为作弊，也会分散//netblog.cn/liuyanban这个页面的权重。

重复收录

除此之外我还发现我的首页被收录了大量奇怪的链接，也不知道这些链接从哪里来的，诸如像这种奇怪的网址：//netblog.cn/?iapolo_com/page/12/page/2/page/2/page/3/page/12/page/13，其实点进去就是首页而已，而这样相同的页面收录了一大堆，链接前半部分都一样，只是后面的目录层次不一样。

秋叶网络博客

从site当中发现了问题自然就要对蜘蛛采取限制措施，不要求数量只要求高质量文章独立收录就行了，具体的robots.txt写法为：

User-agent: * Disallow: /wp-* Disallow: /*?replytocom= Disallow: /?iapolo_com Disallow: /wp-login.php?* Sitemap: //netblog.cn/sitemap.xml

解释：User-agent: *表示限制所有搜索引擎的蜘蛛；Disallow: /wp-*禁止收录wp内部文件，比如说后台页面；Disallow: /*?replytocom=禁止收录回复链接页面；Disallow: /?iapolo_com禁止收录网址中含有?iapolo_com的页面；Disallow: /wp-login.php?*禁止收录登陆入口；Sitemap: //netblog.cn/sitemap.xml为告诉搜索引擎站点地图位置，好让其去爬取。

当然，还有更多的规则需要自己根据自己的站点添加，这些都是本站暂时发现的问题的修复方案。

文章作者： “秋了秋”个人博客，本站鼓励原创。

转载请注明本文地址：http://netblog.cn/blog/72.html

目录: SEO优化标签: robots,搜索引擎,收录 20690次阅读