- 百度搜索引擎的喜好和趋势
作者:秋了秋
发表时间:2014年12月31日
- 淘、草根个人站长代表搜外创始人夫唯、以及大型网站代表太平洋<span class="keyword">SEO</span>负责人黄勇一起探讨了有关搜索引擎趋势,搜索引擎喜好以及工程师们在实操中遇到的技术问题。 1、自然排名是全部由机器完成还是存在人工干预? 夫唯 :第一个就是说经常好不容易找到了一些新的想法,用我们这些草根的话讲找到了百度的漏洞,好不容易排名上去了,过两天就会波动。有些人就怀疑说在百度的整体算法里面是不是有人工干预行为,还是说完全整个过程都是机器在...
- 百度站长平台公布的SEO技术秘密对话
作者:秋了秋
发表时间:2014年12月31日
- 淘、草根个人站长代表搜外创始人夫唯、以及大型网站代表太平洋<span class="keyword">SEO</span>负责人黄勇一起探讨了有关搜索引擎趋势,搜索引擎喜好以及工程师们在实操中遇到的技术问题。 黄勇 : 有一天我们有一个网站发现来了非常多的爬虫,给服务器造成了极大的压力。于是我们紧急屏蔽了所有爬虫IP和UA。可是等一段时间后,我们解除解禁后,却发现恢复起来非常缓慢,基本上两个月后才回到了当时的水平。大家的站越做越大,肯定会遇到庞大的访问压力、抓虫抓取方...
- 我对SEO中文章秒收的看法
作者:秋了秋
发表时间:2014年12月30日
- 实际的秒收并不是真正的快速收录文章,而是快速放出文章,即收录跟放出来几乎是同步的,不要以为你今天写了篇文章,明天site下发现没有该文章,就认为百度没有收录你的文章,其实大部分是收录了的,只是没有放出来,所以你在搜索结果里面找不到。 如果你细心观看每一篇文章的收录时间,你就会发现,文章放出来的时间与收录时间往往是不一致的,比如说我的另一个后备网站wuover.ccaeo.com就是前几天放出来的,然而看它的收录条数下面的收录时间确是5月份,整整相差7个月。 也就是我刚把网站布置上去的时候百度就收录了,只是没有在前端展示。那么它为什么要花很长时间才会放出来,这个肯定会有各种原因的,最大的问题就在于审核,据秋叶的猜测,这个审核的原因大部分在于过度优化,比如说内链的建设以及外链的建设,对于推广性的软文百度的审核是很谨慎的,宁可不收一千,不可放过一个。而对于那些秒收的网站,大部分都是权重比较高,或者不存在过度优化现象的才会给其“免检”或者“速检”。不要成天担心它不放出来,迟早有一天会放出来的。 秋叶网络博客的文章就几乎从来没有过被百度秒收过,而且几乎大部分都是由秋叶原创的文章,秋叶敢打保证,秒不秒收跟文章好不好或者是不是原创没有半毛钱关系,以前看似没有收录的文章,如今还不是一篇一篇乖乖地慢慢放出来,况且显示的时间都是老早老早的。它不秒收我的网站自有其它的原因,其中跟我的网站程序和网站经历太多变数也是多多少少有关联的。 所谓秒不秒收跟文章质量没有任何关系指的是不管你的文章是不是秒收的,跟当前文章的排名是没有关系的,即使很多网站的文章都是秒收,但是依然获不了排名,该怎样还是怎样,只是放出来的时间缩减了而已。受到了搜索引擎的信任但非宠幸。 有的时候,对于一个普通站点来说,迟迟不放出来也是因为文章写得“太好”导致的,这里说的太好是对seo太具有冲击性,字字珠珠都是针对seo优化,一但放出来即可在短期内获得很好排名的文章,对于一个普通站点,这样是显得不合常规的,而且搜索引擎不太喜欢你这么早做排名。 另外提醒一下大家,robots不一定能阻止蜘蛛抓取你的网站,它只会让那些在robots上限制的页面不显示出来而已,实际上他喜欢抓的还是会抓的,近期还直接就放出来了,上面的截图就是个例子,从程序安装到如今我的robots都是禁止了所有东西,前几天却依然放出来了,很明显这样会造成镜像网站的嫌疑,所以我已经立马删掉了,奉劝各位不要做这种备份网站。 ...
- 博客网站百度蜘蛛抓取频次多少为正常
作者:秋了秋
发表时间:2014年12月28日
- 长很困惑的事情。前面秋叶网络博客写了一篇文章《百度工程师对<span class="keyword">SEO</span>的相关问答 》,文中提到了关于百度蜘蛛抓取的问题:有的站点我们一天会抓一两千万,有的站点只抓几个、几十个,看你的规模和质量,而且这个抓取量也是会根据网站的情况进行调整的。 那么说道这个抓取是按网站规模进行抓取的,所以站长依旧很茫然,但是对于个人博客站规模都相差不大的,多几百篇文章算不了什么,所以暂且可以这样定义,个人博客网站的规模都是一样的,...
- 推荐几大站长查询工具-站长工具测评
作者:秋了秋
发表时间:2014年12月27日
- :查询信息较全面,包括第三方权重信息,ALEXA流量预估,百度<span class="keyword">SEO</span>死亡线和波动线,<span class="keyword">SEO</span>基本信息以及口碑。最突出的优点在于每日百度排名涨跌情况,支持前一百名的关键词涨跌信息,关键词库较精确,包括没有指数的关键词以及百度未收录的关键词数,可以查看主域名下的子域名列表。 4.国外的statscrop分析http://www.statscrop.com :主要针对谷歌seo建议,网站分析较全面,数据不太精确,seo建议有部分参考价值。能查询网站标题历史以及...
- 否定网页相似度对SEO收录的影响
作者:秋了秋
发表时间:2014年12月19日
- 现在各种seo中又流行了这样一种说法,网页相似度也开始备受关注,只要用搜索引擎搜索“网页相似度”全屏都是关于怎么解决网页相似度以及网页相似度对seo的危害的的文章。 网页相似度分两种,一种是网页内容的相似度,另外一种是网页结构的相似度,网页内容相似度那就免谈了,只要对seo有一定了解的人都会知道,内容相似度高,要么抄袭要么伪原创,抄袭和伪原创虽然不会影响收录,多多少少都会影响排名的,但量大了的话就对seo非常不利。所以我们应尽量避免内容的相似度,这里所谓的内容是正文部分。 另外一种相似度是网页设计结构的相似度,是这篇文章讨论的重点,大家都知道,每个网站都有一个共同框架,比如头部,侧边栏,底部等,这就形成了大家所谓的相似度,特别是这些共同部分多的话,站内页面与页面之间的相似度是非常高的,多者可以达到80%~90%不等。 而很多人认为这些共同部位造成的相似度会严重影响网站页面的收录,这种想法也很容易理解,因为搜索引擎蜘蛛收录一个网页是把整个网页的代码下载下来,而不是只是下载正文内容,搜索引擎没那么高级,可以判别哪些是正文,哪些不是正文。它都是抓取全页代码。如果你的页面之间共同代码多的话就会造成搜索引擎认为这两个页面的内容是相同的,或者类似的,从而舍弃一个页面,降低了收录量。 这想法固然很有道理,我也曾仔细想过,蜘蛛凭什么判别这是一篇文章页,这是一篇有内容的文章页,相对整个页面代码来说,你那文章内容所占比例太小了,几乎很难看得出来这是正文主体内容。或许我们低估了蜘蛛的能力,它是有办法识别一个页面的主题内容和次要结构的。更不会初相影响收录的这种情况。 我的网站的共同部分算是比较多的,每个页面之间相似度达到80%左右,若按照网上一些“seo专家”说的优化相似度要低于50%,那我的网站的内容可以算是100%的页面都是一样的,那蜘蛛一个页面都不会收录,特别是标签页,几乎每个标签页就一篇文章,而且还是显示简短的摘要,那标签页之间的相似度都达到了95%以上。假设蜘蛛真的把全页html代码当成这个页面的内容的话,假设它分辨不出正文的话,它一定不会收录我的网站,特别是标签页。然而秋叶网络博客的收录数量情况还是算理想的,特别是标签页,几乎每个标签页都收录,这就跟前面的猜想理论背道而驰了。所以否定假设,否定网上的网页相似度对收录的影响。 仅凭秋叶网络博客的案例是远远不够的,你也可以看看百度知道,搜搜问问,搜狗问问,这些页面,那种页面就一个问答内容,其它结构都一样,网页相似度达到了90以上,甚至是99.9%,但收录依然非常好。 综上所述,蜘蛛是可以判别一个网页的主体内容的,至于通过什么算法就不得而知,虽然它收录的是整个页面的html,但是它会对这个页面进行分析解剖,把主体内容进行标注,副体内容比如侧边栏,评论等进行隔阂。 如果页面相似度过高的话,它是如何区分这个页面内容有没有更新呢,这个我是大概知道的,从百度蜘蛛对我的网站访问情况可以看出来,蜘蛛几乎80%以上的时间都是爬取页面的feed,也即是订阅页面,大家可以看看//netblog.cn/feed ,feed页面只对内容进行展示,根本没有其它冗余的代码,一眼就可以看出页面的变化情况,主体内容非常明确。 所以网页的设计结构对相似度的干扰是不会影响收录的,但是如果过多无关代码的话就成了冗余代码,会影响网页的打开速度和稀释关键词密度,对排名造成影响。...
- 百度工程师对SEO的相关问答
作者:秋了秋
发表时间:2014年12月19日
- 问:我们站点使用CDN加速会不会比较容易造成蜘蛛无法抓取?因为有时候修改掉他绑定的什么东西。 答:如果要修改掉一定要通知到上一级,现在不存在这个问题,现在你如果修改掉也可以解析掉,之前可能会存在这个问题。 问:你们百度自己也有一个CDN加速,对抓录排名有没有影响? 答:在使用CDN加速这个问题上,我们对所有站点一视同仁。但我建议你使用技术能力强的CDN服务商,保证站点的稳定和速度,百度会更喜欢。 问:刚才您说IP上的站点数不能太多,那CDN这种情况怎么办? 答:CDN的情况另说,如果我们识别出来是CDN的话不会受站点数量的影响,如果你是提供独立IP的话会有这样一些问题。 问:还是IP上站点数量的问题,如果是主域跟二级域名呢?也受数量限制? 答:我说的是独立域名。当然质量比较好的二级域名也可以认为是独立域名。 问:为什么收录量像坐过山车一样的,还有为什么有些网页今天在明天就没了? 答:百度会周期建库,且每个库的收录量是恒定的,你老是有新增,肯定会再从库里淘汰一些,反正总是保持那个库是满的。在建库的过程中,你会感觉有波动。具体的怎么筛,哪个页面会留下哪个页面会淘汰,这个策略是有很多的,他随着时间的变化,收录的标准策略也是在发生微调。 问:多个域名,他有相同的一些内容,怎么建库? 答:如果是多域名在同一个主域下面有相同内容的话,不可能所有都建库,而且被建库的那个可能不是你希望的那个,所以尽量不要有相同的内容。 问:刚才讲的IP如果是多域名的话,好几百个IP域名,现在我们也用了CDN,按照刚才的说法,单个IP最多抓多少?1000万是说对站点还是对IP? 答:对IP,但1000万是我举例,不是实际的数据,这个数据不会分享出来的。 问:现在我的网站被很多蜘蛛爬,我想只让百度蜘蛛爬,百度蜘蛛IP多少?能设白名单么? 答:百度蜘蛛IP是不断变的,现在网上的确有一些白名单的说法,暂时是有较的,但不保证今后不会变,所以建议站点还是通过ua进行判断,我们百度站长平台上有相关的文章,你可以找一下。 问:如果我写robots只想禁掉动态链接的话,会不会影响动态参数前面正常链接的抓取? 答:不会的,你原来的页面还在,肯定会抓。 问:比如我们一个域名netblog.cn,我们想把带?号的url全部禁掉,首页我们不要禁掉,怎么弄? 答:?前面有个*,后面再有个*就可以了。 问:我想了解,如果我现在收录有5万,大概多长时间才能把我原来收录5万重新抓取一遍? 答:不同站点不好说,一个是你站点做的很好,知名度很响更新很快质量很好就会快;如果你的站点默默无闻,贡献很少,可能就会很慢。 问:百度站长平台上有数据提交的工具,我们实时提交,你们也会实时抓取吗? 答:不会,他会有一层判断。现在只是通知你提交成功,后面什么时候抓,什么时候建库没有,我们正在研究要不要把这个分享出来。 问:我网站有一些列表页,都没有链接,担心百度抓不到。 答:现在百度站长平台的站内搜索工具有一个绿色收录通道,在那里提交种子页,我们就知道的。 问:提交种子页面必须要用站搜? 答:是的。 问:如果说页面里url特别多的话,蜘蛛会不会有选择性的进行抓取? 答:不会,他都会一个不漏给你提出来,但会把JS、CSS这样的链接给过滤掉。但请注意,全部抓取过来之后会进行筛选,并不是所有都会建库。 问:现在很多网站都有自己的站内搜索,都会产生站内搜索结果页,百度不喜欢搜索结果页的话,我们用这个会不会对我们有影响?只是不喜欢还是对我们网站会有惩罚? 答:蜘蛛会去抓,抓完之后重要是提取里面的链接。如果只有一两条这样的页面质量不好问题不大,如果整体质量较差,有可能受到惩罚。 问:新出的时效性文章当时没有被收录,后期是否还会被收录? 答:会 问:站点每天最高爬虫多少次? 答:这个其实说不好,有的站点我们一天会抓一两千万,有的站点只抓几个、几十个,看你的规模和质量,而且这个抓取量也是会根据网站的情况进行调整的。 问:我们的页面本身就很大,会不会解析不出来? 答:页面本身很大倒没问题,赶集、安居客这些量都很大,没有问题。我刚才说的例子,你每次都follow出来新链接,随机把后面的参数去掉都不影响这个网页的正常访问,这种肯定有问题的。 问:刚才说对URL的长度有要求,那对每一段、就是目录名的长度有没有要求。 答:没有要求,我们是要求url从www开始到结束,总长度不超过1024个字节。 问:站内重复内容是怎么判断的?文本内容一样结构不一样,算不算重复? 答:算重复 问:假设是整个页面全是Flash,如果我把一些栏目或者最新的内容隐藏掉,不影响美观隐藏掉,如果用hidden属性能不能提取出来?CSS可不可以? 答:hidden可以提出来,但如果是注释就不会管。CSS不可以。 问:页面大小不超过1兆,是指页面压缩以前还是以后。 答:指页面压缩以后,不要超过1兆 问:我网站的信息已经过时了,但网页返回的是200,会受惩罚?为什么呀? 答:用户在搜索结果里点了你的结果,导流导到你的网站,但没什么可看的,对用户没有用,百度当然不喜欢。 问:现在我们很多网站,为了让用户觉得有意思,内容没了就放一张图片,写一些有意思的话,什么“工程师去哪啦”之类的,对百度友好不? 答:最好不要用,我知道站点是想让百度当内容死链来识别,但内容死链识别起来是有准确率和召回率风险的。 问:我们团购网站的确会有过期团购的页面,会受惩罚吗? 答:如果量特别大、点击量很大的话肯定会有惩罚的。有些可以当内容死链被分析出来,如果分析不出来,会被一些其他的策略挖出来,会有这样的问题。 问:刚才说资讯内容页面,上面有个发布时间好,那如果页面上没有时间呢? 答:那我们往往是按当时抓取的时间来做判定。 问:评论里面时间重要吗。 答:百度更重视主体内容的时间,评论不算主体内容。 问:我们是个平台,很多产品其实只是一个型号变更了,其实颜色都是一模一样的,对蜘蛛而言仅仅只是几个字符,会被识别为重复吗? 答:如果是一个产品的结构化信息的话,应该不会被认为是重复。如果你是简单内容摘要的方式进行介绍的话,可能会存在重复问题。 问:静态URL和动态URL区别大吗? 答:不大,我们现在认为静态和动态都一样的,因为从url上面他能够识别出来,但是抓取回来的东西不太一样。所以现在认为无论你是静态还是动态,我们都认为同样都是url来对待。 秋叶 分析:这些问答确实很有阅读价值!推荐阅读,仔细阅读! ——来自百度站长平台《VIP大讲堂》 ...
- 快速做网站关键词排名的技巧
作者:秋了秋
发表时间:2014年12月17日
- <span class="keyword">SEO</span>说简单又不简单,说复杂又不复杂。对于一个新手来说,往往会感觉很复杂,难以捉摸,但对于一个经验多多的建站人员来说,一点也不复杂,都是有一些成型的固定模式,照搬照套就是了。 这就好比淘宝刷钻一样,刚开始不会的时候感觉非常复杂,天呐,又要做这又要做那,太麻烦了,等你做得多了,熟练了,你就会...
- 单栏Wordpress主题Presence下载
作者:秋了秋
发表时间:2014年12月16日
- 背景自定义上传 11. LOGO,网站文字表述自定义 12. 网站文章 <span class="keyword">SEO</span> 小小优化。 13. 集成后台登录自定义样式。 14. 支持自定义菜单,下拉菜单。 15. 更多功能,请下载好好体验, 主题使用技巧与注意事项 1. 如需网站支持响应式布局,可在后台主题选项中设置 网站宽度为 90%; 2. 如需取消首页 Ajax 无限加载,可在后台主题选项中-布局选项-Infinite scrolling 勾选去除。 3. 开启图片 LightBox 效果,可在后台主题选项中-布局选项-p...
- 博客网站文章标题的相关性优化
作者:秋了秋
发表时间:2014年12月15日
- 来说就比较明了了,比如说秋叶网络博客里面有一篇文章是:标题<span class="keyword">SEO</span>优化,如果秋叶把文章的标题设置成“文章标题--网站标题”的格式的话,那么这篇文章的真正标题是:标题<span class="keyword">SEO</span>优化--秋叶网络博客-关注网络技术和网站建设与<span class="keyword">SEO</span>运营-秋叶的个人博客 ,大家数数原先的文章标题占整个标题的比例是多少?大约14%,一半都不到,别人不知道的还以为你的这篇文章在写“秋叶网络博客-关注网络技术和网站建设与<span class="keyword">SEO</span>运营-秋叶的个人博客”,而其实你是...