谈谈各大搜索引擎对缓存抓取特征
作者:秋了秋 发表时间:2015年04月17日
昨天因为误操作,主题程序出了问题,但是我并不知道是我一不小心犯下的错误,然后网站打开就一片空白了(白书面),我以为有人在攻击我的网站导致空间商自动把攻击页面屏蔽了,恰巧还真有人在换着ip换着客户端在频繁抓取我网站的图片,在控制面板上都一目了然,一直攻击到今天中午,所以一直到今天中午我的网站都是白书面的,我也是一直到今天中午都认为是攻击所导致的问题,其实那攻击根本影响不了我的网站,无意发现根目录里面有错误日志,打开查看报错原由才发现是我的误操作导致代码出问题了~立马修复即可访问。
从昨天晚上到今天中午半天的时间内,网站虽然打不开,但是我能在后台查看到各大搜索引擎的抓取情况。发现一个有趣的现象,百度蜘蛛频繁抓取返回都是0的,而其它搜索引擎,如360,谷歌,搜狗等还是可以抓取到数据的,我很纳闷,细心想想,是我采用了hyper cache缓存,由于我的浏览器之前是处于登录状态的,hyper cache缓存在登录状态下是不起作用的,所以我打开不了我的网站,如果是普通访客的话是可以打开的,而且打开很快,就跟这些搜索引擎一样,抓取和带走的是缓存的页面。这也就证明了网站采用缓存是有好处的,当网站出错的时候不至于影响访客的阅览。
但是为什么百度抓取不到数据,因为百度能采取技术绕过缓存,所以缓存对百度是没有任何效果的。除了缓存,ajax对于百度来说也是失效的。平时我刚写完的文章是显示不出来的,因为首页有缓存周期,只有我自己能看到(登录下),但是百度蜘蛛却能很快爬取到,如果把缓存当成一道墙,那么百度蜘蛛有穿墙之术。而其它搜索引擎就是正常的访客一样,访客能看到什么,它就能抓到什么,自然它就能抓取缓存了。所以这也就证明缓存的不利方面。如果采取缓存的话,其它搜索引擎(除百度外),你新发表的文章链接不能被搜索引擎及时发现和收录。
再来看看网站短期打不开对seo的影响,还是那句老话,360是最敏感的,收录数量立即下降了几十,这在以前是从未出现过的现象,虽然网站打不开期间它能抓到缓存页面,但毕竟缓存页面并不多,只有首页和部分文章页,其它没纳入缓存的页面它一样返回空值,一旦它抓不到页面的话或者抓取返回值为空的话,它会把相应的链接从它的数据库中剔除,但是网站恢复访问的时候,收录数量立马复原,所以它的反应是非常灵敏的。其它搜索引擎都没有很大的变动,他们表示都很宽容~