你网站的robots工作做足够了吗
作者:秋了秋 发表时间:2014年07月27日
seo有一个很重大的环节很容易被站长忽视,那就是robots.txt,这个文件是搜索引擎蜘蛛爬行你的站点的首要之门,robots没写好将会给你的站带来很大的影响。
据我观察发现很多wp用户人压根对这方面没有做足工作,甚至有的站直接就是没有这个文件。robots是一个约束蜘蛛爬行的规则文件,我们都希望蜘蛛能够抓取我们的文章页面,而不希望它抓取其它鸡肋网页,鸡肋网页多了,很影响用户体验。很多人认为,这样可以增加收录量,没错收录量是挺多的,但是没有价值的一大堆,特别是有一些高度重复的页面被抓取了,一旦被搜索引擎发现,很容易k站。如若抓取一些内部文件,还容易给黑客造成可乘之机,比如说wp的内部文件/wp-*/和/wp-login.php?。
没事多关注一下自己网站被搜索引擎收录了哪些页面,昨天我site了一下我的网站,发现收录的鸡肋文件还是挺多的,而且一些没必要的也会收录进来,特别是360,只要是有点权重的页面,它就会把该页面的所有链接都收录下来,包括评论里面的回复按钮链接,有多少个回复链接就收录多少个页面。比如说这种://netblog.cn/liuyanban?replytocom=886,因为每一个回复链接都对应一个id,所以在搜索引擎看来每一个链接都是不同的链接,所以造成同一个页面收录十几甚至几十条记录。这样的情况不仅易造成让搜索引擎认为作弊,也会分散//netblog.cn/liuyanban这个页面的权重。
除此之外我还发现我的首页被收录了大量奇怪的链接,也不知道这些链接从哪里来的,诸如像这种奇怪的网址://netblog.cn/?iapolo_com/page/12/page/2/page/2/page/3/page/12/page/13,其实点进去就是首页而已,而这样相同的页面收录了一大堆,链接前半部分都一样,只是后面的目录层次不一样。
从site当中发现了问题自然就要对蜘蛛采取限制措施,不要求数量只要求高质量文章独立收录就行了,具体的robots.txt写法为:
User-agent: * Disallow: /wp-* Disallow: /*?replytocom= Disallow: /?iapolo_com Disallow: /wp-login.php?* Sitemap: //netblog.cn/sitemap.xml
解释:User-agent: *表示限制所有搜索引擎的蜘蛛;Disallow: /wp-*禁止收录wp内部文件,比如说后台页面;Disallow: /*?replytocom=禁止收录回复链接页面;Disallow: /?iapolo_com禁止收录网址中含有?iapolo_com的页面;Disallow: /wp-login.php?*禁止收录登陆入口;Sitemap: //netblog.cn/sitemap.xml为告诉搜索引擎站点地图位置,好让其去爬取。
当然,还有更多的规则需要自己根据自己的站点添加,这些都是本站暂时发现的问题的修复方案。