首页 > 经验 > 关键词  > 百度收录最新资讯  > 正文

如何避免大量重复URL被百度收录?

2015-07-01 17:03 · 稿源: 站长学院

索引量工具显示索引量数值很高但流量总也上不去,也没有发现我们站内有低质内容,百度这是要闹哪样?在这篇文章中艺龙SEO负责人刘明分享了索引量高流量低的一个原因并给出的解决方案。

首先声明,我们只谈论有检索意义的URL,也就是用户会从搜索引擎查找的页面。其他页面按照常用的方法做屏蔽就好了。鉴于很多站长都爱讨论整体的收录量,我必须泼一下冷水,也许你的有效收录是1/10。

URL参数

也叫URL query,是一个最复杂,最容易被忽视,最容易被妥协的问题。他是网站运营中必不可少的元素,如果简单的去除,其他部门就无法工作了。 静态化是的话题,URL参数经常被用于以下几方面:

同一个实体的不同状态展示,比如同一个酒店,在不同时间点会有不同的房间库存:https://www.travel.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10

为了统计不同渠道的流量:https://www.a.com/?tracking=website_a

为了统计不同渠道,具体模块的点击量:https://www.a.com/?tracking=website_a&click_spot=zone_abc

调试:https://www.a.com/product/item123/?debug=true

全世界最奇葩的是亚马逊,居然把统计参数放到了路径中https://www.amazon.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1

出现这种问题的坏处有几点:

1.浪费搜索引擎对你网站的各项配额,从而影响其他正常的页面。

2.丢失很多本应拿到的链接加分,站外渠道的链接往往是特出质的。同一个URL的分值可能分散成几十份。

3.SEO的流量被统计到别的渠道(因为tracking字段写的是别的渠道,而且被收录被点击)

4.往往形成一种局面,产品用一套URL,SEO用另一套URL, 甚至不同渠道用不同的URL,后期开发和维护的成本很高。

为了解决这个问题,首先要弄清URL的定义。以我的理解,每一个URL是一个静态的、独立不重复的、有意义的实体,一般也有检索意义(就是有人会搜)。比如一个人、一辆车、一条道路、一个零件。而不能混入各种"状态",比如这个人生病的时候,难道就不是他自己了么? 一件商品在促销的状态难道是另一件商品了么?

理论上canonical标签就可以解决这个问题了, 但是从实际测试结果看,百度对这个标签的支持优先级非常低, 几乎可以忽略不计。那么我的解决方案是这样的:

1.建立好网站的思维导图和元信息。 (可参考文章:如何保持SEO健康度? )

2.所有和SEO元信息相关的参数都放到路径中去

3.所有和SEO元信息不相干的参数都放到#后边,因为#后边不影响web服务器返回的内容。简单的说就是用"#"替代"?"。

4.每个页面中都利用js获取#后边的参数对,通过二次请求发回给统计服务器

5.如果#后边的参数影响页面内容,比如酒店的入住日期。那么这部分内容用ajax加载就行,他是不稳定的,不属于页面内容的一部分。(当然还有变通的办法,暂不赘述。)

6.原始的#锚点定义肯定会冲突,定义一个#后边的变量,并用js控制屏幕滚动,来保证原始锚点的作用。

有人可能会想到,根据ua判断,如果是搜索引擎爬虫,就用跳转的方式去掉URL参数。但效率比较高的方法必然是从一开始就不展示错误URL。那么前面的例子优化后就变成了:

https://www.travel.com/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10

https://www.a.com/#tracking=website_a

https://www.a.com/#tracking=website_a&click_spot=zone_abc

https://www.a.com/product/item123/#debug=true

其实很多网站早就使用这种方式了,但是还有很多网站由于开发效率无法及时实现。所以对于一般的小网站,一定要考虑开发成本,不要轻易冒进。只要能避免问题的发生,变通的方法是很多的。

路径中使用非必要元素

很多网站仿照亚马逊的做法,把商品名体现在URL中,然后再通过id来决定页面展示的内容:https://www.amazon.cn/博集典藏馆043•基督山伯爵-亚历山大•仲马/dp/B005TZHJEQ/

这样虽然可以提高一些相关性,但是很危险。在长期甚至短期的时间内,大量商品的名称是非常可能有变化的,那么URL也就跟着变化。成本也是非常高的,因为加大了技术实现难度,不管从站内还是站外,每次增加链接都是一个很麻烦的事情。

在我接手艺龙SEO之前,URL被全部改成了这样,对我早期的工作造成了非常巨大的负担:https://www.a.com/Shangrila_International_Hotel-12345678-hotel/

通过日志分析发现基本所有的百度蜘蛛发起的请求都被301跳转了一次(日志分析方法可参考SEO健康度 )。细致调查后发现,从SEO拼接规则到后台的汉字和翻译数据被一直修改。也就是说,这个URL相关的元素有:

1.中文 (非必要元素)

2.由中文翻译的英文 (非必要元素)

3.id (必要元素)

而当时负责SEO的同事把英文和id拼接在了URL中,那么这样一个URL先后变成过:

https://www.a.com/Shangrila_International_Hotel-12345678-hotel/

https://www.a.com/Xianggelila_International_Hotel-12345678-hotel/

https://www.a.com/XiangGeLiLa_International_Hotel-12345678-hotel/

https://www.a.com/Shangrila_guoji_Hotel-12345678-hotel/

跟"相关性"比,URL的仅有性和稳定性更重要。所以针对这个问题,URL的理想策略应该是:https://www.a.com/hotel/12345678/

如果这个id是隶属于一个分类下的,比如城市,那么就可以是:https://www.a.com/hotel/beijing/123/

从技术角度说, id一般是数据库的primary key,可以是数字也可以是字符串,那么这个时候URL是一维的; id也可以是联合的仅有索引,那么URL就是二维的,就像上面的(bejing,123)缺一不可。电商类网站列表页经常用到三维以上。

大小写

如果网站的技术架构用的是开源系统,一般是不会有这个问题的。如果使用了微软的技术架构,这个问题非常常见:

https://www.a.com/newyork/

https://www.a.com/Newyork/

https://www.a.com/NewYork/

我的建议是统一使用小写,大写自动跳转为小写(小心301死循环!)。

目录的规范

很多网站同时存在这样的URL,无形中把收录量扩大了一倍:

https://www.a.com/product/123

https://www.a.com/product/123/

上边首先个路径的意思是在product目录下有一个123文件。第二个路径的意思是在product目录下有一个123目录,这个目录下可能有很多文件,但是他代表众多文件中的index.html或index.php或default.aspx等优先级比较高的那个文件。为了避免歧义,我定义文件都是用".html"结尾的。

为了减少重复收录,那么按我的习惯是:

https://www.a.com/product/123 => https://www.a.com/product/123/

https://www.a.com/product/123 => https://www.a.com/product/123.html

总结

1.所有部门统一使用SEO定义的URL,屏蔽非SEO URL的入口。

2.用"#"替代"?"

3.统一使用小写

4.保证目录的规范

5.把不规范的URL跳转到规范的URL

举报

  • 相关推荐
  • 百度网盘上线知识问答功能:你的数据会自己“说话”了

    ,百度网盘宣布上线知识问答”功能,变成活的知识库”。 据了解,百度网盘通过AI技术整合用户在网盘中的数据,如学习资料、生活照片、办公文件等多源信息,形成结构化知识库。 它帮助用户快速查找”、问答”、创作”,实现知识的长期沉淀与高效复用。 从存储工具到知识中枢,百度网盘实现了从被动存储”到主动管理”的升级,构建你的第二大脑”。 它支持多模�

  • 最重要的搜索阵地,百度想誓死守住

    AI搜索的东风刮过两年,百度终于下决心,对自家搜索引擎“动刀子”。 7月2日,百度宣布开启十年来最大一次搜索改版,正式将搜索框改版成支持千字输入的“智能框”,从“给链接”跨越到了“给答案”。另外靠着智能体,百度搜索也进入了“解决任务”的阶段,并集成了AI写作、AI图片/视频生成等一系列服务。 当然,这还不够。在阿里夸克、字节豆包等产品不断往自家�

  • 百度搜索,跳出“框”外

    以AI为“黄金配方”,百度搜索已经悄然生长出了“肌肉”。用户侧最直观的感受是,曾经熟悉的搜索框变“大”了。 “大”从表面看是搜索框所能承载的内容和能调用的工具变多。例如,过去做旅行计划得靠“亲子出游”“漂流”“一天”等关键词堆砌,现在只要用自然语言提需求即可。

  • 双第一!百度智能云领跑2025上半年大模型中标市场

    2025年上半年,全球AI产业迎来关键拐点,多模态理解、深度逻辑推理等核心能力实现重大突破。大模型加速渗透产业核心场景,推动AI从通用能力向深度行业应用转变。我国大模型项目呈现爆发式增长,中标项目累计1810个,金额突破64亿元。百度智能云表现突出,以48个中标项目和5.1亿元金额稳居"双第一",在金融、能源、政务等重点行业持续领先。行业趋势表明,大模型市场正从"通用竞争"迈向"行业深耕"阶段,技术实力与落地能力成为关键。百度智能云依托领先的大模型技术与全栈智能基础设施,助力企业高效部署应用AI,目前已有65%央企选择与其合作。在能源、交通、金融等领域,百度打造了多个行业标杆案例,显著提升业务效率。

  • 百度2026届校招正式启动!AI相关职位占比超90%:双批次双机会

    今天,百度正式启动了2026届校园招聘,将发放4000offer,覆盖四大职位类别,共有256个细分职位,分布于北京、上海、深圳、广州、成都、大连、杭州七大城市。 值得一提的是,此次2026届百度校园招聘中,AI相关职位占比超九成,共新增90个AI相关职位,覆盖多模态、跨模态、大模型架构等方向。

  • 一场没有“罗永浩”的直播,为百度AI正名

    5500万GMV,这可能是迄今为止,一个AI数字人单次直播带来的最高销量。 过去几年内,数字人直播代替真人主播的传言总是一波又一波,空无一人的直播基地无数手机屏幕“自动地”产生着GMV,这个画面曾经击中了无数网友的心。但现实是,这些数字人们机械重复的动作、无法随机应变的话术反而让真人主播们都松了一口气。 但这次,真正的转折点来了。6月15日,罗永浩数字�

  • @开发者们:百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!

    6月30日,百度文心大模型4.5系列正式开源并在国内领先的开源平台GitCode首发上线。该系列包含10款模型,涵盖47B和3B参数的混合专家(MoE)模型及0.3B的稠密参数模型,采用创新的多模态异架构结构实现跨模态知识融合。模型基于飞桨框架开发,训练效率达47% MFU,在文本和多模态基准测试中达到SOTA水平。所有模型按Apache2.0协议开源,配套产业级开发套件支持多种芯片部署。GitCode平台已汇聚620万用户,为AI开发者提供代码托管、协同开发等全流程支持。此次开源将推动中国AI生态创新,加速大模型技术产业化应用。

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • 百度文库智能PPT月访问量超3400万、位列全球第一,市场份额断崖式领先

    极光旗下月狐数据发布《2025年智能PPT行业市场研究报告》显示,中国智能PPT市场年增速超50%,百度文库智能PPT月访问量超3400万,市场份额断层领先。报告指出,百度文库在六大产品维度均列行业第一,依托海量资源实现分钟级高质量PPT生成,支持多模态输入输出,并持续优化可视化效果。2023年百度文库率先推出全流程智能PPT解决方案,两年间在文本、图表、美化等方面全面提升质量,首创专业布局功能,推动行业从"直接可用"向"专家级"跃迁。目前百度文库AI月活用户达9700万,已推出数百项多模态AI能力,成为AI时代的"超级生产力工具"。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。