首页 > 优化 > 关键词  > 搜索引擎最新资讯  > 正文

浅析搜索引擎对页面的收录(二)

2010-02-13 23:00 · 稿源:http://songel.com/

如何避免重复性收录

在互联网中,信息的重复是在所难免的。然而,搜索引擎怎么样才能识别重复的信息呢?怎样判断哪些网页的信息是原创,哪些是“复制”的?哪些重复的信 息室有价值的,哪些又是可以舍弃的?下面大敏给各位分享下自学后得出的答案。

一个网站里,重复信息主要包括转载内容及镜像内容这两种,搜索引擎在对页面进行分析时,必须具备识别重复信息的能力。因为,存储大量的重复的信息, 不仅给服务器增加负担,而且还会给用户体验造成影响。但这不意味着所有重复信息都是没价值的,搜索引擎认为转载内容不如原创内容重要,赋予原创性的内容页 面有着更高的权重,而镜像内容则几乎被忽略

转载页面

转载页面是指那些与原创页面的正文内容(搜索引擎通过算法,清楚文章页面多余的信息,例如:广告,图片,侧边栏,然后,就得到正文内容)相近或相同 的页面。然后,搜索引擎如何识别转载页面呢?首先,把正文内容分为N个区域,如果有M个区域(M是搜索引擎指定的一个阈值)是相同或者相似的,则搜索引擎 认为这些页面互为转载内容,

如下图,页面一与页面二是不同网站上的两个页面,其中页面1中的A和页面2上的B分别是这两个页面上的正文内容。为了识别这两个页面是否互为转载页 面,搜索引擎先把这两个页面的正文内容分成四个区域进行比较。假设这四个区域中有3个是完全相同或者相似的,则认为这两个页面时互为转载的。

在确定页面是否为转载页面后,接下来,搜索引擎再结合页面的最后修改时间(搜索引擎在抓取页面时已经存储的附加信息,下在一节《搜索引擎工作原理- 搜索引擎对页面的收录(三)》)、页面权重等因素判断是原创页面还是转载页面。

镜像页面

内容完全相同的页面互为镜像页面。要想判断页面是否互为镜像页面,搜索引擎首先把这些页面分成N个区域进行比较,如果这N个区域的内容完全一样,则 认为这些也页面互为镜像页面。然后再综合页面权重值,页面最后修改时间,判断哪个才是源页面,哪个是镜像页面。

如下图,页面一及页面二,是不同的网站上的两个页面。把这两个页面分成三个区域进行比较(即A-1、A-2、A-3和B-1、B-2、B-3),如 果这三个区域的页面内容完全一致,则认为这两个也米娜互为镜像页面

镜像网站

镜像网站是指内容完全相同的网站,形成镜像网站主要有两种情况:第一种是多个域名或IP指向同一服务器的同一目录:另外一种是整个网站内容被复制到 时用不同域名或者IP的服务器上。

为了识别站点是否互为镜像网站,搜索引擎首先判断这些网站的首页以及与首页直接连接的页面是否互为镜像也米娜。如果是,则互为镜像网站。然后综合网 站权重值、建立时间等)识别哪个是源网站,哪个是镜像网站。这样,以后抓取页面就集中在源网站进行,这就是为什么一些镜像网站被搜索引擎舍弃,或者收录少 的原因。

原创文章如转载,请注明:转载自大敏博客 [ https://songel.com ]

本文链接地址: https://songel.com/archives/73.html

举报

  • 相关推荐
  • 全球经济形势动荡下,浅析黄金避险价值与皇御环球的交易优势

    全球经济格局变化下,黄金作为传统避险资产,其市场表现受多重因素影响。当前经济复苏不均衡、不确定性增加,投资者风险偏好变化导致黄金需求波动。全球经济增长放缓、贸易保护主义抬头、地缘政治紧张等因素将持续影响经济稳定复苏,促使投资者增持黄金等安全资产。同时,全球央行持续购金及美元信用弱化也支撑金价。历史数据显示,美元在全球外汇储备占比每�

  • 火山引擎究竟想要什么?

    火山引擎的名字里没有云。 这件事在以前是个需要解释的事情。2020年底,字节内部的关键决策会议上,正式决定让火山引擎对外提供服务、进入真实的市场,而在这个最初的会议上,字节希望这个技术平台不只是“又一个云计算厂商”。于是干脆从名字就不带云。 在火山引擎进入这个市场的时刻,云计算正处于焦灼的互卷阶段。这是一个需求旺盛的市场,也是一个充满诱惑

  • 国内有哪些AI资讯网站?最全面的AI新闻资讯平台盘点

    本文介绍了国内主要AI资讯平台,帮助读者获取最新行业动态。综合类平台包括机器之心(专注前沿技术报道)、AI科技评论(雷锋网旗下专业视角平台)和新智元("智能+"为核心的全方位报道);专业技术导向平台有CSDN AI频道(含丰富实践内容)和InfoQ AI栏目(侧重开发实践);新兴聚合平台AIbase整合国内外最新资讯,量子位则专注AI与量子计算等前沿领域。建议根据�

  • AI之下,搜索获得“无限内容池”

    搜索引擎诞生20余年,其核心一直考验对于海量信息检索、分析、匹配以及呈现的能力。它一头是搜索技术,一头是内容池。 不夸张的说,如果搜索的能力是“巧妇”,可检索分析匹配的内容则是“米”,甚至在后搜索时代,搜索能力之间的差距在减小,用户有了更多的选择,但内容的数量和质量却参差不齐,用户搜索的体验大打折扣。 为了满足给用户更好的搜索体验,百�

  • 百度搜索,跳出“框”外

    以AI为“黄金配方”,百度搜索已经悄然生长出了“肌肉”。用户侧最直观的感受是,曾经熟悉的搜索框变“大”了。 “大”从表面看是搜索框所能承载的内容和能调用的工具变多。例如,过去做旅行计划得靠“亲子出游”“漂流”“一天”等关键词堆砌,现在只要用自然语言提需求即可。

  • 最重要的搜索阵地,百度想誓死守住

    AI搜索的东风刮过两年,百度终于下决心,对自家搜索引擎“动刀子”。 7月2日,百度宣布开启十年来最大一次搜索改版,正式将搜索框改版成支持千字输入的“智能框”,从“给链接”跨越到了“给答案”。另外靠着智能体,百度搜索也进入了“解决任务”的阶段,并集成了AI写作、AI图片/视频生成等一系列服务。 当然,这还不够。在阿里夸克、字节豆包等产品不断往自家�

  • 微软张祺:智能体将成为广告行业的变革引擎

    微软在北京举办"MSA Accelerate营销峰会2025",聚焦AI与智能体对广告行业的变革。微软全球资深副总裁张祺博士指出,AI时代已至,推理能力和记忆机制的突破让模型更强大高效。峰会发布多项创新产品,包括海外市场"品牌智能体",可执行复杂任务、实时响应并自主决策,显著提升品牌与消费者互动效率。微软广告业务中国区副总裁黄秀兰强调将持续深化本土生态合作,通过技术赋能助力中国品牌拓展国际市场。核心亮点包括:Copilot在广告个性化体验的重大突破,相关搜索广告效果提升25%;沉浸式展厅广告打造线上品牌旗舰店;动态筛选器通过对话交互实现精准投放。微软承诺坚持"信任优先"原则,确保数据安全可控。

  • 文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

    本文探讨了当前主流的AI文生图技术及其应用场景。国际阵营中,OpenAI的DALL·E3擅长复杂语义理解,MidJourney以艺术风格见长,Stable Diffusion则以开源生态支持深度定制。中国力量方面,百度文心一格在中文语义和国风创作表现突出,阿里通义万相侧重商业化应用,昆仑万维天工支持长文本生成连贯图像。垂直领域工具如Adobe Firefly深度集成设计流程,Runway ML革新视频创作。文章建议通过聚合平台高效对比模型特性,并指出下一代技术将突破分辨率限制,实现跨模态生成。从精准语义到无限可能,AI文生图正在重塑视觉创作边界。

  • 下手帮你干活直接交付结果 纳米AI超级搜索智能体发布

    ​当搜索不再只是获取信息的工具,而能直接帮你完成购物决策、行程规划甚至输出专业报告——这一愿景随着纳米AI超级搜索智能体的发布成为现实。

  • 火山引擎AICC机密计算,助力蔚来智能时代数据安全

    文章探讨了智能汽车时代数据安全与隐私保护的挑战。蔚来汽车通过火山引擎Jeddak AICC机密计算平台,构建端云协同的安全防护体系,实现用户数据全链路保护。智能座舱从被动感知向主动认知升级,需要处理大量个性化数据,这对数据合规提出更高要求。面对全球化业务拓展中的合规效率问题,蔚来系统性构建技术驱动型数据安全合规框架,将隐私保护机制融入具体场景架构。专家指出,智能时代需要突破性隐私保护技术,行业需协同共建数据安全新防线。