首页 > 动态 > 关键词  > 原创网站最新资讯  > 正文

百度工程师披露百度原创识别“起源”算法细节

2013-05-17 14:18 · 稿源:站长之家

站长之家(chinaz.com)5月17日消息:昨日,百度搜索团队工程师LEE发布文章表示,百度已经抽调大量人员组成原创项目组,致力构建原创环境,推动中文互联网的前进。同时,百度披露了原创识别系统-“起源”算法的部分细节。

据百度工程师LEE称,百度原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

同时LEE表示,通过实验以及真实线上数据,百度原创识别“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。

百度站长平台LEE发布的全文内容如下:谈谈原创项目那点事

一、搜索引擎为什么要重视原创

1.1采集泛滥化

来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

1.2提高搜索用户体验

数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

1.3鼓励原创作者和文章

转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。

二、采集很狡诈,识别原创很艰难

2.1采集冒充原创,篡改关键信息

当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

2.2内容生成器,制造伪原创

利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。

2.3网页差异化,结构化信息提取困难

不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。

三、百度识别原创之路如何走?

3.1成立原创项目组,打持久战

面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。

3.2原创识别“起源”算法

互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。

3.3原创星火计划

我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。

目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。

最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。

举报

  • 相关推荐
  • 一场没有“罗永浩”的直播,为百度AI正名

    5500万GMV,这可能是迄今为止,一个AI数字人单次直播带来的最高销量。 过去几年内,数字人直播代替真人主播的传言总是一波又一波,空无一人的直播基地无数手机屏幕“自动地”产生着GMV,这个画面曾经击中了无数网友的心。但现实是,这些数字人们机械重复的动作、无法随机应变的话术反而让真人主播们都松了一口气。 但这次,真正的转折点来了。6月15日,罗永浩数字�

  • 罗永浩担任百度慧播星首席产品体验官 入驻百度优选进行真人直播带货

    百度宣布,罗永浩将正式担任百度慧播星首席产品体验官。 除了罗永浩本人入驻百度优选进行真人直播带货外,其数字人也将不定期开播、常态化为用户带来更多福利。 6月15日,罗永浩数字人直播首秀创下超1300万人次观看、GMV突破5500万元的行业新纪录,部分核心品类带货量反超真人直播。 百度文心大模型化身灵魂编剧”,基于老罗人设和商品特性,开启了全新大师级剧本

  • PK本尊,百度电商新解数字人

    6月15日晚,罗永浩数字人在百度电商完成首场直播,该场直播GMV突破5500万元,数据超过了5月23日罗永浩本人在百度电商直播时的GMV。 进一步对比两场直播,可以看到很多有趣的细节。 “先本尊,后替身”的两场直播带货说明百度电商在过去两年时间内已完成基础建设。百度优选在接受采访时提到,“我们在GMV上没有压力,百度优选作为电商行业的新玩家,历史包袱并不多,

  • 今夏增长卷上天?看百度商家智能体玩转服务预约!

    文章探讨了数字化浪潮下商家经营从"经验驱动"转向"智能驱动"的趋势。通过教育、旅游、法律三大行业的实战案例,展示了智能体如何助力企业实现"省人、省心、省钱"目标。在教育领域,智能体帮助机构精准解读家长需求,提升招生效率;在旅游业,智能体化身"旅行搭子",提供个性化行程规划;在法律行业,智能体24小时提供专业咨询和情感支持。智能体正从单纯工具进化为懂行业、懂场景、懂人心的"金牌销售",通过预约化服务和场景适配能力升级,助力企业降本增效,实现服务温度与商业效率的双赢。

  • 百度心响上线iOS版,多智能体协作应用终于卷对地方了

    今年的4月26日,我们测评了百度新发布的多智能体协作应用心响APP。当时只上线了安卓版,很多网友在线求苹果版链接。 就在这几天,iOS版也终于上线了,只需要在苹果的APP Store搜索关键词即可下载。 现在,苹果安卓用户全部免费用,完全不限量! 在第一时间体验了iOS版心响APP,我们基本上可以下一个判断:智能体应用,终于卷对地方了。

  • 百度回应支付李彦宏私人飞机费用:合理操作 大厂普遍存在

    百度发布2025年Q1财报:总营收325亿元,同比增长3%;核心营收255亿元,增长7%;净利润77亿元,大增42%。财报披露公司向董事长兼CEO李彦宏支付飞机相关费用引发关注。百度回应称该信息已在4月年报中披露,费用经内部审批流程规范合理,强调上市公司交易行为有严格规范,且国内外大厂支付高管飞机费用属常见现象。此前百度集团曾表示,2022-2024年经董事会批准,将为李彦宏因公使用私人飞机产生的费用提供报销,费用标准参照同类飞机市场收费分析确定,且该费用占公司整体财务比重不大。

  • YY直播首部AIGC短剧上线:借助百度技术优势 强化生态短剧概念

    YY直播旗下短剧厂牌麦穗上线首部AIGC短剧《权谋之帝王心术》,该剧基于YY主播真实生态故事改编,以主播为人物原型,百度AIGC参与剧本创作并完成视觉呈现,制作成本和周期较真人短剧下降超50%。作为直播行业首部AIGC真人短剧,YY借助百度技术优势参与"百剧计划"重点项目。该剧共4部,首部6月17日上线,用户可通过YY等平台观看。麦穗厂牌主打生态短剧概念,已上线多部原创作品,深度植入YY生态故事并由主播出演主角。通过AIGC技术,该剧制作成本降低58%,周期缩短53%,避免了档期、场地等传统制作难题。未来YY将持续深化"生态故事+AIGC+多平台分发"的特色短剧运营模式。

  • 百度任罗永浩为“慧播星”首席体验官 将再造10万数字人主播

    近日,罗永浩数字人”在百度电商开启直播首秀。 据百度提供的数据显示,数字人直播间开播仅26分钟,GMV便超过罗永浩真人直播1小时的成交额,最终以7小时5500万元的战绩收官。 据统计,90%的网络用户在观看直播后评价都非常正向,且纷纷表示数字人直播与真人直播已真假难辨”。 不过,也有网友评论:还是不能完全替代罗老师”。 为验证AI主播 真人IP”混合模式的商�

  • 数字人老罗也要交个朋友!“罗永浩数字人”将于15日亮相百度电商

    罗永浩今日在微博宣布自己的数字人”将在6月15日亮相百度电商直播。 罗永浩称这次直播就两件事儿:人虽然是我的数字人,但货还是老罗严选的好货;价格还是实惠厚道,数字人老罗也要交个朋友。 罗永浩解释:最近自己发现头部带货主播基本没做过数字人,于是就让百度给自己做一个,本周日晚17:00就开始带货。” 他表示:虽然相信百度的技术底子,但他还是不放心,

  • IDC发布中国金融大模型市场份额报告:百度智能云居首

    IDC最新报告显示,百度智能云以12.2%的市场份额位居中国金融行业生成式AI平台及解决方案厂商首位。2024年中国金融生成式AI市场规模预计达9.14亿元,百度智能云全年营收1.113亿元领跑行业。其全栈大模型解决方案覆盖基础设施、基础模型、生成平台及场景应用,已服务超600家金融机构,包括65%的央企客户。典型案例包括某头部银行构建的全行级知识检索平台,覆盖1.6万用户;银河证券部署的衍生品交易机器人累计处理询价26万次;泰康保险的AI智训系统有效提升代理人获客能力。百度通过"算力云+数据飞轮+模型平台+智能体生态"四轮驱动体系,构建了包含300+培训课程的人才认证体系,并与工信部教考中心联合颁发认证证书,当前持证学员超1万人。2025年Q1财报显示,百度智能云营收同比激增42%,金融领域成为核心增长引擎。