信息过量抓取有限:谈搜索引擎相关性技术

2008-11-12 09:18 稿源:www.seo.com.cn  0条评论

核心提示:相关性,是搜索引擎优化中的重点,主要是由搜索引擎的特点决定的。首先Web网页数量已经达到上十亿的规模,其次,搜索引擎用户自身的检索专业能力通常很有限。

相关性,是搜索引擎优化中的重点。但是对于相关性的搜索引擎工作原理,相信大部分的SEOER对于都缺乏了解。但是只需要我们主流搜索引擎技术的方向,你就可以知道搜索引擎时代的脉搏。

相关度排序技术的产生主要是由搜索引擎的特点决定的。首先,现代搜索引擎能够访问的Web网页数量已经达到上十亿的规模,哪怕用户只是搜索其中很少的一部分内容,基于全文搜索技术的搜索引擎也能返回成千上万的页面。即便这些结果网页都是用户所需要的,用户也没有可能对所有的网页浏览一遍,所以能够将用户最感兴趣的结果网页放于前面,势必可以增强搜索引擎用户的满意度。其次,搜索引擎用户自身的检索专业能力通常很有限,在最为普遍的关键词检索行为中,用户一般只是键人几个词语。例如,Spink等曾对Excite等搜索引擎的近300位用户做过实验调查,发现人均输入的检索词为3.34个。国内部分学者也有相似的结论,发现90%左右的用户输入的中文检索单字为2~6个,而且2字词居多,约占58%,其次为4字词(约占18%)和3字词(约占14%)。

过少的检索词事实上无法真正表达用户的检索需求,而且用户通常也不去进行复杂的逻辑构造,只有相当少的用户进行布尔逻辑检索、限制性检索和高级检索等方法,仅有5.24%的检索式中包含有布尔逻辑算符。国内的部分学者的研究结果也表明,约40%的用户不能正确运用字段检索或二次检索,80%左右的用户不能正确运用高级检索功能,甚至还发现用户缺乏动力去学习复杂的检索技能,多数用户都寄希望于搜索引擎能够自动地为他们构造有效的检索式。由于缺乏过去联机检索中常常具备的检索人员,因此,用户实际的检索行为与用户理想的检索行为存在事实上的差距,检索结果的不满意也是不奇怪的。正是由于这个特点,搜索引擎就必须设法将用户最想要的网页结果尽可能地放到网页结果的前面,这就是网页相关度排序算法在搜索引擎中为什么非常重要的原因。

现阶段的相关度排序技术主要有以下几种:一是基于传统信息检索技术的方式,它主要利用关键词本身在文档中的重要程度来对文档与用户查询要求的相关度做出测量,如利用网页中关键词出现的频率和位置。一般而言,检索出的网页文档中含有的查询关键词个数越多,相关性越大,并且此关键词的区分度越高;同时,查询关键词如果出现在诸如标题字段等重要位置上,则比出现在正文的相关度要大。二是超链分析技术,使用此技术的代表性搜索引擎有Google和Baidu等。和前者相比,它以网页被认可的重要程度作为检索结果的相关度排序依据。从设计思想上看,它更注重第三方对该网页的认可,如具有较大链入网页数的网页才是得到广泛认可的重要网页,而根据关键词位置和频率的传统方法只是一种网页自我认可的形式,缺乏客观性。最后还有一些其他方式,如由用户自由定义排序规则的自定义方式。北京大学的天网FTP搜索引擎就采用这种排序方式,它可以让用户选择诸如时间、大小、稳定性和距离等具体排序指标来对结果网页进行相关度排序。再如收费排名模式,它作为搜索引擎的一种主要赢利手段,在具有网络门户特点的大型搜索引擎中广为使用,但于担心影响搜索结果的客观性,这种方式不是它们的主流排序方式,而仅仅作为一个补充显示在付费搜索栏目中。

有好的文章希望站长之家帮助分享推广,猛戳这里我要投稿

相关文章

相关热点

查看更多