首页 > 经验 > 关键词  > 百度收录最新资讯  > 正文

如何避免大量重复URL被百度收录?

2015-07-01 17:03 · 稿源: 站长学院

索引量工具显示索引量数值很高但流量总也上不去,也没有发现我们站内有低质内容,百度这是要闹哪样?在这篇文章中艺龙SEO负责人刘明分享了索引量高流量低的一个原因并给出的解决方案。

首先声明,我们只谈论有检索意义的URL,也就是用户会从搜索引擎查找的页面。其他页面按照常用的方法做屏蔽就好了。鉴于很多站长都爱讨论整体的收录量,我必须泼一下冷水,也许你的有效收录是1/10。

URL参数

也叫URL query,是一个最复杂,最容易被忽视,最容易被妥协的问题。他是网站运营中必不可少的元素,如果简单的去除,其他部门就无法工作了。 静态化是的话题,URL参数经常被用于以下几方面:

同一个实体的不同状态展示,比如同一个酒店,在不同时间点会有不同的房间库存:https://www.travel.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10

为了统计不同渠道的流量:https://www.a.com/?tracking=website_a

为了统计不同渠道,具体模块的点击量:https://www.a.com/?tracking=website_a&click_spot=zone_abc

调试:https://www.a.com/product/item123/?debug=true

全世界最奇葩的是亚马逊,居然把统计参数放到了路径中https://www.amazon.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1

出现这种问题的坏处有几点:

1.浪费搜索引擎对你网站的各项配额,从而影响其他正常的页面。

2.丢失很多本应拿到的链接加分,站外渠道的链接往往是最优质的。同一个URL的分值可能分散成几十份。

3.SEO的流量被统计到别的渠道(因为tracking字段写的是别的渠道,而且被收录被点击)

4.往往形成一种局面,产品用一套URL,SEO用另一套URL, 甚至不同渠道用不同的URL,后期开发和维护的成本极高。

为了解决这个问题,首先要弄清URL的定义。以我的理解,每一个URL是一个静态的、独立不重复的、有意义的实体,一般也有检索意义(就是有人会搜)。比如一个人、一辆车、一条道路、一个零件。而不能混入各种"状态",比如这个人生病的时候,难道就不是他自己了么? 一件商品在促销的状态难道是另一件商品了么?

理论上canonical标签就可以解决这个问题了, 但是从实际测试结果看,百度对这个标签的支持优先级非常低, 几乎可以忽略不计。那么我的解决方案是这样的:

1.建立好网站的思维导图和元信息。 (可参考文章:如何保持SEO健康度? )

2.所有和SEO元信息相关的参数都放到路径中去

3.所有和SEO元信息不相干的参数都放到#后边,因为#后边不影响web服务器返回的内容。简单的说就是用"#"替代"?"。

4.每个页面中都利用js获取#后边的参数对,通过二次请求发回给统计服务器

5.如果#后边的参数影响页面内容,比如酒店的入住日期。那么这部分内容用ajax加载就行,他是不稳定的,不属于页面内容的一部分。(当然还有变通的办法,暂不赘述。)

6.原始的#锚点定义肯定会冲突,定义一个#后边的变量,并用js控制屏幕滚动,来保证原始锚点的作用。

有人可能会想到,根据ua判断,如果是搜索引擎爬虫,就用跳转的方式去掉URL参数。但效率最高的方法必然是从一开始就不展示错误URL。那么前面的例子优化后就变成了:

https://www.travel.com/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10

https://www.a.com/#tracking=website_a

https://www.a.com/#tracking=website_a&click_spot=zone_abc

https://www.a.com/product/item123/#debug=true

其实很多网站早就使用这种方式了,但是还有很多网站由于开发效率无法及时实现。所以对于一般的小网站,一定要考虑开发成本,不要轻易冒进。只要能避免问题的发生,变通的方法是很多的。

路径中使用非必要元素

很多网站仿照亚马逊的做法,把商品名体现在URL中,然后再通过id来决定页面展示的内容:https://www.amazon.cn/博集典藏馆043•基督山伯爵-亚历山大•仲马/dp/B005TZHJEQ/

这样虽然可以提高一些相关性,但是很危险。在长期甚至短期的时间内,大量商品的名称是非常可能有变化的,那么URL也就跟着变化。成本也是非常高的,因为加大了技术实现难度,不管从站内还是站外,每次增加链接都是一个很麻烦的事情。

在我接手艺龙SEO之前,URL被全部改成了这样,对我早期的工作造成了非常巨大的负担:https://www.a.com/Shangrila_International_Hotel-12345678-hotel/

通过日志分析发现基本所有的百度蜘蛛发起的请求都被301跳转了一次(日志分析方法可参考SEO健康度 )。细致调查后发现,从SEO拼接规则到后台的汉字和翻译数据被一直修改。也就是说,这个URL相关的元素有:

1.中文 (非必要元素)

2.由中文翻译的英文 (非必要元素)

3.id (必要元素)

而当时负责SEO的同事把英文和id拼接在了URL中,那么这样一个URL先后变成过:

https://www.a.com/Shangrila_International_Hotel-12345678-hotel/

https://www.a.com/Xianggelila_International_Hotel-12345678-hotel/

https://www.a.com/XiangGeLiLa_International_Hotel-12345678-hotel/

https://www.a.com/Shangrila_guoji_Hotel-12345678-hotel/

跟"相关性"比,URL的唯一性和稳定性更重要。所以针对这个问题,URL的最佳策略应该是:https://www.a.com/hotel/12345678/

如果这个id是隶属于一个分类下的,比如城市,那么就可以是:https://www.a.com/hotel/beijing/123/

从技术角度说, id一般是数据库的primary key,可以是数字也可以是字符串,那么这个时候URL是一维的; id也可以是联合的唯一索引,那么URL就是二维的,就像上面的(bejing,123)缺一不可。电商类网站列表页经常用到三维以上。

大小写

如果网站的技术架构用的是开源系统,一般是不会有这个问题的。如果使用了微软的技术架构,这个问题非常常见:

https://www.a.com/newyork/

https://www.a.com/Newyork/

https://www.a.com/NewYork/

我的建议是统一使用小写,大写自动跳转为小写(小心301死循环!)。

目录的规范

很多网站同时存在这样的URL,无形中把收录量扩大了一倍:

https://www.a.com/product/123

https://www.a.com/product/123/

上边第一个路径的意思是在product目录下有一个123文件。第二个路径的意思是在product目录下有一个123目录,这个目录下可能有很多文件,但是他代表众多文件中的index.html或index.php或default.aspx等优先级最高的那个文件。为了避免歧义,我定义文件都是用".html"结尾的。

为了减少重复收录,那么按我的习惯是:

https://www.a.com/product/123 => https://www.a.com/product/123/

https://www.a.com/product/123 => https://www.a.com/product/123.html

总结

1.所有部门统一使用SEO定义的URL,屏蔽非SEO URL的入口。

2.用"#"替代"?"

3.统一使用小写

4.保证目录的规范

5.把不规范的URL跳转到规范的URL

  • 相关推荐
  • 大家在看
  • 腾讯云服务器12.12限时秒杀-1核2G首年50元

    腾讯云服务器12.12多种机型限时抢购,1核2G服务器4.17元/月,2核4G服务器6.17元/月,专业技术7*24小时在线服务,腾讯云为企业和个人提供快捷,安全,稳定的云服务!

    广告
  • 百度告赢百度烤肉 获赔230万元

    还记得之前今日头条起诉今日油条的新闻吗?现在百度起诉百度烤肉也赢了,有5家公司因为侵犯百度公司注册商标专用权、攀附百度公司商誉的主观恶意明显而被判赔偿百度公司230万元。据报道,北京知识产权法院日前表示,法院近日审结一起侵权案,因大量使用百度”百度烤肉”百度食糖”等标识,京百度餐饮公司等五家公司被百度在线网络技术(北京)有限公司(以下简称百度公司”)告上法庭,要求对方停止侵权行为并公开刊登声明停止影响。

  • 百度与十余家企业互通

    今日,百度宣布与美团、小红书、顺丰、携程、知乎、同程、猫眼、 58 同城等十余家企业达成互联互通深度合作,将以春节为起点,在流量、技术、服务生态三大层面展开互联互通合作...据了解,上述十余家企业已在百度App内上线智能小程序,百度将在今年的“好运中国年”活动期间开放百亿流量给互联互通合作伙伴...

  • 百度整治账号运营乱象

    昨日,百度发布了《关于开展“清朗·互联网用户账号运营乱象专项整治行动”的情况公告》称,去年10月以来,百度积极响应国家网信办关于“清朗·互联网用户账号运营乱象专项整治行动”的工作要求,围绕账号环节突出问题展开清理工作,对违规账号严厉打击...平台加强对用户账号的名称、昵称、头像、简介和封面等信息的审核管理,防止用户利用账号的名称、标识等信息假冒仿冒党政军机关、企事业单位、新闻媒体等组织机构,误导公众,?

  • 百度解读搜索内容时效性

    百度搜索资源平台对搜索内容时效性作出了解读...时间因子是指页面主体内容的产生时间,或者能够辅助用户判断内容时效性的时间...符合规范的时间因子可以让用户获得更好的浏览体验,也可以辅助百度搜索的策略更精准地判断内容时效性...时间因子主要有内容发布时间(PubDate)、内容更新时间(UpDate)、最新回复时间(IrDate)三种...使用 JSON-LD格式在页面中嵌入代码即可,详细标准及提交格式可以参考《百度搜索落地页时间因子规?

  • 百度百科十五年:暗藏波澜的战争

    ​求新求变是互联网产业的特征之一,所以“其兴也勃焉,其亡也忽焉”成了互联网产品的常态,“长寿”产品则珍稀程度远过于大熊猫。提起这些“大熊猫”,人们想起的往往是QQ、淘宝,其实还有一款人们经常使用但容易忽略的产品:百度百科。

  • 百度网盘青春版上线

    昨日,百度网盘青春版正式在各大应用商店上线,免费提供10GB储存空间。据介绍,百度网盘青春版支持极速上传、极速下载、在线播放/阅读、文档扫描、音频转文稿等功能。

  • 百度“磐玉”蜂巢服务器正式发布

    12月28日消息,在百度AI开发者大会上,百度ARM云基础产品矩阵的最新产品“磐玉”蜂巢服务器正式亮相。据百度ARM云业务负责人陶孝禹介绍,“磐玉”蜂巢服务器基于ARM架构打造,是业界首创的基于仿生学的蜂巢式ARM架构云,拥有仿生算力、高能效比、高性价比、高密设计等四大核心优势,可以应用在智慧城市、智慧医疗、智慧教育、智慧金融、智慧文娱等行业的数字化转型过程中。近年来,随着云计算的飞速发展,云原生技术迅?

  • 百度起诉百度烤肉获赔230万 此前已申请冻结500万财产

    凤凰网科技讯 12月23日消息,据知产北京公众号消息,因“百度烤肉”构成侵害商标权及不正当竞争,北京知识产权法院判决京百度餐饮公司等五公司赔偿百度公司经济损失及合理支出230余万元。天眼查App显示,此前,百度在线网络技术(北京)有限公司以侵害商标权为由,向北京京百度餐饮管理有限公司及其第一分公司、第七分公司、第三分公司、第八分公司五被告提起诉讼,案件开庭日期为2021年5月7日。值得一提的是,百度公司于2020年5月

  • 关注职场健康管理 长轻带着冥想课走进百度

    随着007、 996 的工作制成为社会常态,强压力所导致的久坐、熬夜、饮食不规律、睡眠不好等常见现象已经成为危害职场人身体健康及心理健康的罪魁祸首。 12 月 23 日,长轻心理疗愈师马超彦做客百度北京分公司,为百度职员带去了一场以《梳理最佳状态——冥想正念加强训练》为主题的职场心理健康管理分享课,帮助职场员工缓解心理压力与做好健康管理。在此次分享会上,长轻心理疗愈师马超彦就冥想的作用、繁忙生活中如何练习冥想、以

  • 寺库智能小程序在百度上线 不断丰富购买渠道

    寺库与百度开启互联互通深度合作,用户无需下载寺库APP,可在百度App内使用寺库智能小程序直接完成购买服务...本次与百度达成合作,进一步满足了寺库用户对于购买奢侈品渠道多元化方面的需求...

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天