
作为搜索引擎优化技术人员,我们对商业网站搜索结果最具影响的因素尤为注意。因此,我们对此一直进行研究,调查网站搜索结果和Linkscape工具中的链接与锚文本等数据,以及从Facebook得到的社会媒体信号,还有页面因素/链接地址/域名关键词因素之间的关系。
这份文件阐释了我们的理论方法,包括数据的建立和统计分析,主要构成如下:接下来的部分包含数据建立的细节,对数据源和样本抽取的选择。最后一部分描述的是统计分析方法。
在研究细节之前,我们想对几个重要特点进行分析。虽然以后我们计划拓展分析,但目前我们只考虑英语语言,即从谷歌搜索引擎得到的结果。在2011年3月,也就是在谷歌的Farmer/Panda更新之后,我们对所有数据资料进行了采集。
数据收集
关键词列表
构建数据集的第一步选择一个查询词列表.因为该列表决定了数据集的构成质量,所以确保它涵盖各种主题和查询种类是至关重要的.为达到此目标,我们使用了Google Adwords工具推荐的排名前15的查询种类(表1给出了关键词分类清单).Google Adwords工具给每一种类提供了800个查询,共计12000个.通过清除副本(有些查询含多个种类),我们最后得出的清单有10980个查询.
通过搜索量来测算,关键词的最终列表包含样本的头、中、尾查询。 表2列出了不同本地搜索量的查询数量。从罕见搜索(每月少于1000次)到频繁搜索(每月超过20000次,以及包含每月超过1000000次关键词搜索的数据),所有的搜索量都得到了较好的体现。
SERPs
我们在谷歌美国搜索引擎中对查询列表上10980个查询词进行了查询,并且每个词都提取了前30个搜索结果。我们从结果中删除所有非网页搜索结果(图像、视频、新闻等),最后,我们排除所有返回的结果小于15的查询,以确保每个SERP有足够的数据点进行分析。最终剩下223737个独立的URL。
因素
构建数据集的最后一步是计算排名因素。我们收集了各种来源的因素,具体如下。
1、Linkscape URL指标. 所有链接的相关因素均来源于Linkscape,使用url-metrics API调用。(Linkscape是SEOmoz开发的软件,使用自己的爬虫来获取海量的数据)
2、Linkscape锚文本 对于每一个网址,我们提取了使用Linkscape锚文本API调用的前1000个锚文本术语和短语。然后,我们确定是否有局部/精确匹配的查询。这里的“精确匹配”是指整个查询的锚文本完全匹配,而“部分匹配”是指查询中至少有一个词与锚文本匹配。
3、社会媒体的信号。 对于每一个网址,我们从Facebook、谷歌Buzz和Topsy(Twitter)的API中获取各种社会媒体的信号。
4、网页上的因素。 我们检索每个网址的原始的HTML/XML内容,而且计算了各种利益因素。如在不同页面元素中的关键词匹配,文件的长度等
5、域名/URL因素 我们也采集了有关网址和域名的各种因素,如查询是否与域名匹配,是否域名中包含任何连字符等。
在带有所有结果的数据集中可以发现该因素的完整列表和每个描述。
此次调查的介绍
此次调查的介绍两段更改为:2011年3月期间,SEOmoz采访了134位SEO专业人士,收集了他们对目前商业网站搜索结果影响因素的看法及对未来搜索的预测。下面的数据显示,自由职业者与营销人员受访者之间存在较大的分歧。此外,这些受访者的工作地点涵盖了从当地小规模网站到企业级别的网站。
本次调查还包括一些关于搜索计算的基本问题,要求每个受访者针对特定类别的网站,按顺序罗列出其潜在影响因素的清单。每个问题均有115到126人回答。除个别结果按比例进行了缩放以外,其它调查结果仍按收集的原样呈现。