搜索引擎的模糊匹配技术
作者:秋了秋 发表时间:2014年12月25日
搜索引擎的强大之处在于,它能够给广大网民提供海量资源索引,让互联网上的每一个人都有权利获取自己需要的资源,然而单纯的资源是远远不够的,并不是每一个搜索者都是技术行家,但是搜索引擎是技术行家,它有强大的技术让用户轻松找到自己所需要的网络信息,而模糊匹配搜索是搜索引擎的强大技术之一。
很多时候我们在自己的网站上搜索资源的时候,你会发现,很难精确找到自己所需要的信息,比如说秋叶网络博客里面有一篇文章《一些揪心的心事》,如果你在站内数据库的搜索框中键入“揪心心事”是找不到这篇文章的,只有正确的输入完全匹配词汇“揪心的心事”才能找到,缺一不可,原因在于站内的搜索不具备智能模糊匹配技术。再来看看一篇文章《无损音乐大全1800G百度网盘下载》,如果在站内搜索“百度音乐 无损网盘”是找不到这篇文章的,如果把这个关键词放到百度搜索框里面搜索的话,是可以模糊匹配到这篇文章的。
这就说明在百度搜索里面,网民不需要很精确的匹配关键词寻找信息,百度搜索引擎会帮你寻找你想要寻找的东西,这样下来,缺点就是搜索结果是海量的,用户需要根据自己的需求筛选信息,一般地,搜索引擎会把它认为你想寻找的信息放在最前面,依次排序。
上面所说的“百度音乐 无损网盘”是关键词词语顺序错乱的模糊匹配,搜索模糊匹配还有很多其它的方式,比如说秋叶网络博客首页的关键词有个autumnleaves,而我的网站首页是没有该词汇的,也从未出现过该词汇,但是你在百度搜索autumnleaves,翻到搜索结果第四页你就会发现我的网站,这就是搜索引擎的英汉模糊匹配技术,因为本站有个关键词是秋叶,而秋叶的英文翻译就是autumnleaves。对于一些常用词汇,搜索引擎是会进行英汉互译模糊匹配的。
搜索引擎模糊匹配技术之错别字匹配,网民在搜索自己需要的信息的时候,往往也会一不小心打错字,但搜索引擎说:没关系,我能理解。在这一方面搜索引擎是做得很人性化的,比如说,前几天秋叶从访问统计中得知有人通过关键词“百度网盘 无损淫液”进入我的网站,不信你们也可以去试试看,排在第一位的就是我的网站,在百度看来“无损淫液”就是无损音乐,它匹配的也是这个词,而用户很明显就是输入法的问题,这一切搜索引擎都可以理解,这就更加凸显百度搜索引擎的智能化。
搜索引擎模糊匹配技术之近义词匹配,从我网站的统计得出结果,有相当一部分人是通过“互联网博客”找到我的网站,在百度搜索结果的第三页第九位,而我的博客网站也未曾出现过互联网这个词汇,这主要得益于搜索引擎的近义词模糊匹配,因为秋叶网络博客的标题中有“网络”二字,而网络跟互联网是近义词,百度能很巧妙地把这两个词汇联系在一起,实现模糊匹配。其实这也是从用户角度出发,用户主要是想寻找有关互联网的博客,而秋叶网络博客也即属于互联网IT行业的一部分。所以搜索引擎给用户呈现这样的结果一点也不足为奇。
搜索引擎模糊匹配技术之简体与繁体匹配,在我们眼中往往繁体不等于简体,至少在字形上是有很大区别的,但在搜索引擎眼中看来,简体=繁体,比如说有人通过“無損+博客”找到我的网站,而搜索引擎给他匹配的就是“无损+博客”,在排名上,简体和繁体是没有区别的。
搜索引擎模糊匹配技术之长尾词扩展匹配,之前秋叶网络博客还出现过一个关键词叫做“个人网络空间”,这个关键词的来源其实就是词序错乱+长尾词扩展组成的一个新的长尾词,除此之外还有一个“个人博客空间”,当用户想要搜索“个人博客”的时候,搜索引擎会给他匹配相应的长尾词,搜寻个人博客,那么个人博客空间也是属于个人博客的,所以它会把“个人博客空间呈现给用户”,尽管如此,搜索结果的最相关“个人博客”依然是排在前位的,只有当用户在搜索结果的前位依然还找不到自己想要的结果的时候,那么长尾词就排在后面任君选择了,若用户真就选择了后面的结果,那么很显然下次后面的那个被选中的网站的排名将会在“个人博客”搜索结果中提升一大截,这就是排名的原理。
以上搜索引擎的模糊匹配技术纯属秋叶个人观察得出的结论,不代表任何第三方意见。