谷歌的Pagerank算法的简单分析

2013-04-15 09:18 稿源:seow3c.com  0条评论

搜索引擎的算法一直以来都是最核心的运营机密,很多SEO优化工作者也都是对搜索引擎算法停留在了解原理的基础之上,我们能做的就是在每一次搜索引擎更新算法的时候依据大量网站的搜索情况进行猜测。一个真正了解搜索引擎的SEO从业人员势必会让自己在优化的道路上左右逢源,为了更好的和搜索引擎对话,为了能够更好的对网站进行改善优化,SEO优化联盟建议大家要认认真真的去了解搜索引擎算法的工作原理并按照算法的特点来有针对的进行优化工作。

搜索引擎算法的存在一方面是为了能够为用户提供更准确的搜索结果,另一方面就是为了使SEO优化行业更加规范,避免那些使用作弊手段来欺骗搜索引擎的网站优化方法。算法最终目的是为了在用户使用搜索引擎搜索关键词的时候能够将与查询主题高度相关的一些网页集合展现出来,而目前基于查询的分析算法中主要分为两个大类,一个是谷歌的基于链接分析的Pagerank算法,另一个就是基于查询主题进行分析的Hits算法,这两种算法是目前搜索引擎使用最为广泛的算法,这两种算法各有各的特点,也各有各的缺点不足,那么作为SEO从业者我们该如何正确的去学习这两种算法来为自己的工作做准备呢?也许你会一脸茫然,但是你会在这篇文章中更好的对着两种算法进行了解。

谷歌的Pagerank算法的简单分析

1、Pagerank算法的核心思想:

注意谷歌Pagerank算法是基于随机冲浪模型的最好典范(指的是该算法使用的前提是用户访问网页时随机的),谷歌的Pagerank算法的最基本思想是基于网站之间的相互投票,即我们常说的网站之间互相指向,如果判断一个网站是高质量站点时,那么该网站应该是被很多高质量的网站引用又或者是该网站引用了大量的高质量权威的站点,也就如下图卡通形象所示,所

以对于谷歌来说,我们在优化的时候就应该将该算法的核心思想运用得当,在优化的时候我们尝试将自己的站点和高质量的权威网站进行链接,抑或是通过自己的关

系让自己的站点被一些高权重的站点链接上去,这样一来,无论是在谷歌还是在百度搜索引擎中,我们的站点在他们看来也会是具有高质量的站点。所以SEO优化

联盟建议大家在针对谷歌优化的时候要尽力的建设好网站的外链和内部链接,用链接来增加网站或者是网站内容页面的投票数,进而增加相关重要网页的权重。

2、Pagerank算法的计算要素:

pagerank算法的计算方法是基于一个与当前网站页面相关的所有网页集合(主要是指该网页

指向和被指向的网页集合),也就是说将该网页置身与一个比较大的方阵之中,在这个方阵之后网页与网页之间是通过互相指向的有向图来确定关系同时进行网页

PR值的传递,假如网也的PR值为1那么相对于整体来说该页上从其他特定网页上继承过来的权重应该是PR(t)/L(t)[其中PR(t)指的是特定网页的pr值,L(t)指的是该网页的出站链接数目],

但是我们知道这是理想状态下的计算方法,一个网页上影响pr值的还有很多噪点,比如网页中的广告链接、网站之间相互链接的连接点是不能再此时同时计算出去

的,也就是说该算法还需呀一个规范化的因子来纠正结果的正确性(规范化因子我们命名为d,通常d值取值为0.85)所以实际上谷歌Pagerank算法用

来计算网站权重的计算公式应该是一个抛去其他噪点因素的干净公式:

 

PR(A)=(1-d)+d[PR(t)/C(t1)+...+PR(tn)/C(tn)]

 

从公式中我们还可以看到一个很令人困惑的问题,那就是该公式中并没有将相互链接的网站或者是形成闭环的网页链接(类似站群思想,将网页之间形成闭环来积累PR值)

拿出来单独解释,对于相互之间互相链接的网站我们通过分析可以知道,二者之间的pr值如果在没有出站链接的情况下只会互相传递,不会向外流失,久而久之

pr值就会慢慢积累越来越高,这对搜索引擎来说是不够友好的,所以在实际的pagerank算法中在计算的过程中是将这种闭环链接单独进行计算,同时也引

入了衰退因子(下文中的E(U)),防止pr值过多的积累,该算法的结构如下:

 

所以对这部分的权重计算公式可以简单的列举如下:

 

主要思想就是该部分网页的权重R'(u)等于相互链接的网页pr值R(v)与网站的出战链接数目N(v)进行迭代计算,同时引入衰退因子E(U)来现在权重的积累。

3、Pagerank算法的优缺点分析:

pagerank算法将互联网中大多数的网页通过基于链接来计算网页质量的方式进行排名,为搜索引擎用户提供较好的基于链接查询的搜索结果,同时该算法能够进行离线分析处理,大大缩短了搜索引擎用户的服务响应时间,因此就目前来说该算法是搜索引擎应用最好的算法,但是pagerank算法的缺点也是相当明显的,在上文中我们也进行了讨论,那就是该算法在初期的时候一直都是基于链接分析的,而一个网页上的链接包含很多:比如广告链接、功能链接、导航链接、以及多次重复的无效链接等等,这些链接都会被该算法计算在pr值传递之中,所以不能够对网页降噪之后在进行处理,同时,由于是基于链接分析,导致pagerank算法计算出来的搜索结果往往会偏离实际的搜索主题,也就是说该算法不能很好的基于主题查询,当我们在进行查询的时候,pagerank算法会自动将计算出来的主题相关网页连接到的不相关页面也集中起来,这就导致该出现的重要网页没有出现,而不该出现的与主题不相关的页面却出现了,这对整个用户来说都是不合理的。

以上是自己对谷歌搜索引擎Pagerank算法的一些简单认识,在实际操作过程中SEO优化联盟肯定会存在很多的不足以及错误,如果细心的你发现了,请你及时的和我联系。

本文来源:http://www.seow3c.com/转载请注明出处!

有好的文章希望站长之家帮助分享推广,猛戳这里我要投稿

相关文章

相关热点

查看更多

关闭