首页 > 动态 > 关键词  > 原创网站最新资讯  > 正文

百度工程师披露百度原创识别“起源”算法细节

2013-05-17 14:18 · 稿源:站长之家

站长之家(chinaz.com)5月17日消息:昨日,百度搜索团队工程师LEE发布文章表示,百度已经抽调大量人员组成原创项目组,致力构建原创环境,推动中文互联网的前进。同时,百度披露了原创识别系统-“起源”算法的部分细节。

据百度工程师LEE称,百度原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

同时LEE表示,通过实验以及真实线上数据,百度原创识别“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。

百度站长平台LEE发布的全文内容如下:谈谈原创项目那点事

一、搜索引擎为什么要重视原创

1.1采集泛滥化

来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

1.2提高搜索用户体验

数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

1.3鼓励原创作者和文章

转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。

二、采集很狡诈,识别原创很艰难

2.1采集冒充原创,篡改关键信息

当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

2.2内容生成器,制造伪原创

利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。

2.3网页差异化,结构化信息提取困难

不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。

三、百度识别原创之路如何走?

3.1成立原创项目组,打持久战

面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。

3.2原创识别“起源”算法

互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。

3.3原创星火计划

我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。

目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。

最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。

举报

  • 相关推荐
  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • 百度网盘正式适配安卓实况照片:iOS和安卓可跨系统互传

    近日,百度网盘针对安卓用户推出重磅功能更新,正式适配安卓系统实况照片(Live Photo)的存储与播放需求,一举解决安卓阵营长期存在的动态照片管理痛点。此次升级不仅实现了iOS与安卓设备间实况照片的无障碍互传,更在画质保留、格式兼容等方面带来突破性体验。 据更新日志显示,安卓用户上传实况照片至百度网盘后,可直接在

  • 百度智能云这项开源,让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

    10月28日,百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测(MTP)技术代码。该技术通过批量生成和集中验证机制,使模型解码吞吐量提升超2倍,突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配,并经过百度内部业务验证,开发者可"开箱即用"获得稳定可靠的推理加速能力。

  • 百度百科词条总量突破3000万,联合《大学科普》等多机构推出科普专刊

    10月24日,百度百科联合《大学科普》推出“繁星计划”主题专刊,作为该刊2025年第3期面向全国高校发行,助力权威科普传播。同日,繁星计划新增北京林业大学林学院等5家合作机构,扩大行业影响力。该计划自2024年12月启动,已联合10万专家、500家机构共建超100万专业词条,百度百科词条总量突破3000万。通过与权威期刊合作,百度百科旨在为高校学子搭建连接前沿科学与知识普及的桥梁,践行“让知识轻松可及”的使命。

  • 实时调度36万真人医生,百度健康AI管家有医靠更可信

    10月18日,百度健康发布AI健康管家,首创“AI+真人”双保障模式。该产品在训练阶段引入36万医生标注数据,生成建议后由真人医生二次核验,确保专业安全。覆盖诊前、诊中、诊后全环节,提供数十项AI功能,包括科普问答、用药咨询、报告解读等。用户可通过百度APP搜索使用,定位为7*24小时个人健康助手,有效解决在线医疗服务时效性难题。

  • 如何提高网站在AI摘要中的可见性?网站 GEO 优化应该这样做

    在AI驱动的搜索时代,Google的AI摘要成为用户获取信息的首选方式,但也带来零点击加剧、网页点击率下降等挑战。文章提出从内容、结构、技术、权威与监测五大维度系统优化网站AI可见性:内容上采用问答结构、列表格式和语义覆盖;技术上确保页面可抓取、加载快速;强化E-E-A-T权威信号;并借助专业工具持续监测优化。通过综合策略可显著提升网站在AI摘要中的曝光机会。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • AI工具网站GEO优化实战:3个月让品牌曝光率提升40%

    随着AI搜索工具普及,传统SEO面临挑战。数据显示,71%美国用户用AI研究产品,58.5%的谷歌搜索实现零点击。流量正从搜索引擎转向AI平台,企业需转向GEO(生成引擎优化)。通过监控AI平台推荐情况、分析竞品曝光策略、持续优化内容质量,案例显示3个月内品牌曝光率可从10%提升至42%。建议每周固定监测核心问题排名,针对高价值问题优化页面,建立“监控-优化-验证”闭环。

  • GEO优化秘籍:如何让 AI 把你的网站当作“权威来源”?

    AI搜索时代,SEO逻辑已变。传统堆关键词、刷外链失效,生成式引擎优化(GEO)更关注内容被AI优先引用。核心策略:提升信任度(真实地址、多平台一致、原创内容)、清晰度(结构化标题、FAQ模块)、权威度(外部引用、行业认证)。内容需语义化、场景化、本地化,如“北京朝阳区婚姻律师”而非泛关键词。用数据工具持续追踪排名,让AI视你为可信答案来源。

  • GEO优化攻略:网站如何提升“可信度评分”?

    随着生成式搜索崛起,AI不再仅匹配关键词,而是评估网站可信度,通过"可信度评分"决定内容推荐。该评分基于网站真实性、专业性、用户行为等维度,直接影响本地搜索排名。提升方法包括:确保联系信息全网一致、上传真实门店资料、强化专业内容、收集用户好评、持续监控数据。优化重点从技术转向信任建设,使用AIBase等工具实时追踪表现,让网站成为"被AI信任的品牌"。

今日大家都在搜的词: