百度权重查询 站长交易 友情链接交换 网站建设,网站设计,企业建站就找313
模拟的索引库
理论上,当用户输入关键词“mp3 player”搜索时,搜索引擎就从 “mp3”那行 和 “player”那行里拿出同时都有的、交集的url来即可。
上图也是现在英文版的google.com上的真实排名情况,可以看到 www.winamp.com 这个网站在搜索“mp3”的时候排第4位,在搜索“player”的时候也排第4位。当搜索“mp3 player”的时候,因为没有其他网站比它更匹配这个词语,所以它排在了第一位。

排在第一
当搜索引擎把一个网站抓取下来后,接着要做的事情就是把网页里的词语分开放到索引库里。分词在这个时候就要应用到了,所谓的分词,其实很简单,就是把词语分开而已。
英语的分词好处理一点,因为英语的每个单词之间是用空格分开的,基本上就只要处理一些虚词、介词,还有一些词语的单复数,变形词等等。但是中文的分词就复杂很多了,句子中的每个字都连在一起,有时候即使是人来判断,都还有产生歧义的时候。中文的分词有很多方法,也很容易弄懂的,如正向切分法,逆向切分法等等,网上有很多相关的资料。
谷歌的中文分词方法是从国外一家第三方公司买的。百度的分词方法是自己创立的,可能在词库上面比谷歌有点优势。不过其他方面差了一些。
当爬虫找到一个网页的时候,在搜索引擎看来,这个网页就是一大堆词语的组合。基本流程如下:

搜索引擎的处理过程
看完这个流程图,应该能给大家在做内部优化的时候有所启发的。
我建议大家再去看一下《把Web标准化进行得更彻底一点》这篇文章,还有《丰富网页摘要”,让你的网站与众不同》以及《SEO案例:锚文本、关键字、nofollow、Web标准化(一)》和 《SEO案例:锚文本、关键字、nofollow、Web标准化(二)》。那些文章和这篇文章一样,都是在讲同一个问题。
一定要站在搜索引擎的角度,把它的这些原理了解清楚了,才会让你明白哪些因素才是你应该关注的重点。
有人说: SEO就是重在细节。这应该是经验之谈。但是不知道大家有没有想过的是:是不是可能原本这些看似细节的东西,其实就是应该注意的重要的东西呢?如果你不能控制好你的排名,有没有想过可能你以前特别在意的一些SEO因素,其实有些并不是重点?;而只是你把影响排名的部分因素弄错了?
上面的很多知识,其实在《搜索引擎营销:网站流量大提速》里都有提及的。那本书要去精读的原因之一就是它讲了很多看似很普通的原理,但是都是有用的。
比如在选关键词的时候,也可以参考一下这个词语的索引量。从上面的原理可以看出,这个索引量反应了这个词语在这种语言当中人们使用的流行程度。所以国外有些计算关键词KEI指数的公式里,也把这个关键词的索引量加入了进来。
有兴趣再追溯下去的朋友可以看看google黑板报上的这篇文章:http://www.googlechinablog.com/2006/05/blog-post_10.html
原文地址:http://www.semyj.com/archives/544