首页 > 动态 > 关键词  > 原创网站最新资讯  > 正文

百度工程师披露百度原创识别“起源”算法细节

2013-05-17 14:18 · 稿源:站长之家

站长之家(chinaz.com)5月17日消息:昨日,百度搜索团队工程师LEE发布文章表示,百度已经抽调大量人员组成原创项目组,致力构建原创环境,推动中文互联网的前进。同时,百度披露了原创识别系统-“起源”算法的部分细节。

据百度工程师LEE称,百度原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

同时LEE表示,通过实验以及真实线上数据,百度原创识别“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。

百度站长平台LEE发布的全文内容如下:谈谈原创项目那点事

一、搜索引擎为什么要重视原创

1.1采集泛滥化

来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

1.2提高搜索用户体验

数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

1.3鼓励原创作者和文章

转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。

二、采集很狡诈,识别原创很艰难

2.1采集冒充原创,篡改关键信息

当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

2.2内容生成器,制造伪原创

利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。

2.3网页差异化,结构化信息提取困难

不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。

三、百度识别原创之路如何走?

3.1成立原创项目组,打持久战

面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。

3.2原创识别“起源”算法

互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。

3.3原创星火计划

我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。

目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。

最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。

举报

  • 相关推荐
  • 百度、优酷,要打一场“横竖争夺战”

    当小屏幕上收获的注意力超越大银幕,互联网大厂们的集体All in戏码再度上演。国家电影局今年元旦发布的数据显示,国内2024年电影市场总票房为425.02亿元。《中国网络视听发展研究报告(2025)》中则提到,中国微短剧市场规模突破504.4亿元。而此前的2023年,电影对比短剧的优势差额还在150亿元之上。形势逆转之快,出乎了大多数人的意料。在短剧刚刚从抖音、快手等短视频

  • 京东外卖开启“钞”能力招人:19薪起步+年薪百万招算法工程师

    快科技4月22日消息,近日,据招聘平台显示,京东开启了钞”能力招人模式,陆续放出高级算法工程师、后端开发、测试开发专家等岗位。从招聘信息看,京东对员工薪酬采取19薪的模式,大部分的岗位起薪在30K以上,不少岗位年薪能够达到百万元级别。值得注意的是,相关招聘页面显示京东外卖的某副总监正亲自在线招人,部分岗位发布者1小时内仍在活跃。据职友集和BOSS直聘相关数据列表,美团月薪主要集中在30k50K,部分高级岗位如规划算法工程师可达40K60k,年薪结构多为16薪。据了解,美团算法工程师薪酬在互联网行业中处于高位,尤其技术核心?

  • 百度优选MCP,AI电商新解法

    AI技术正在重塑全球电商行业格局,百度推出MCP开放平台,为开发者提供AI电商解决方案。文章指出,AI已实现24小时智能直播、精准选品匹配、自动化营销等功能,帮助商家降本增效。数据显示,49%美国消费者会使用AI工具辅助购物决策。百度MCP平台整合搜索、交易等能力,开发者可快速调用电商工具,同时获得百度流量支持。目前已有上千开发者加入该平台。专家认为,未来电商竞争将转向AI应用深度和生态开放度,中国企业出海需构建AI技术壁垒。

  • 李彦宏:百度一定可以改变世界 务实传承了20多年

    快科技5月7日消息,在今天的百度内部颁奖活动中,百度创始人李彦宏致辞表示,坚定、自信、务实是百度二十几年传承下来的文化。李彦宏谈及,不久前参加Create2025大会并搭乘萝卜快跑时,有路过的参会者曾摇下车窗,对着他搭乘的萝卜快跑喊道,百度牛!百度牛!”。看到一辆车在那么拥挤的道路上,能完全没有人地开起来,还是挺震撼的。”李彦宏称,百度这种技术底�

  • 高德、百度地图,决战智驾下半场

    随着新能源汽车智能驾驶进入理性回归阶段,高德和百度地图正从幕后走向台前。近期多起新能源车事故引发智能驾驶安全性争议,工信部要求车企不得夸大宣传,严格履行告知义务。高德推出基于AI的导航智能体Navi+Agent,百度发布"智驾级导航"V21版本,双方都在提升驾驶体验。但高精度地图面临成本高、更新慢等挑战,华为、小鹏等车企开始探索"无图方案"。地图商需在技术投入和商业化间找到平衡,智能驾驶下半场竞争将更加激烈。

  • 百度文库、百度网盘联合发布全球首个内容操作系统「沧舟OS」,致力于让AI「无所不能、无处不在」

    4月25日,百度在Create2025开发者大会上推出全球首个内容领域操作系统"沧浪OS"。该系统整合百度文库和网盘资源,构建"公私有知识框架+工具框架"体系,通过知识化框架(公域/私域/记忆三大知识库)和工具化框架(多模理解、检索、文件解析等组件),实现内容元素级拆解。沧浪OS还包含阅读器、编辑器、播放器三大组件,通过调度中枢协调AI Agent工作。目前该系统已集成数百项AI Agent功能,覆盖图文影音等多种内容形态,并与华为、三星等厂商展开深度合作,将MCP架构应用于手机云存储等场景,提升文件管理效率。

  • 百度公布动物语言转换专利 可实现动物与人类沟通

    据专利文件披露,这一技术通过采集动物的声音、行为及体征等多模态数据,经预处理后融合为统一格式,并基于数据分析识别动物当前的情感状态。最终,系统将情感识别结果转化为人类可理解的语言,形成语言转换输出。这一流程不仅提升了跨物种沟通的准确性

  • 百度网盘将发布“星盘”:明星入驻分享生活点滴

    快科技5月1日消息,日前在Create2025百度AI开发者大会,百度网盘产品负责人吴天昊透露,不久后将有一个命名为星盘”的全新产品发布。据介绍,目前已有越来越多的明星成为百度网盘的用户,未来也将有更多明星入驻星盘”,和粉丝朋友们在这里分享生活的点点滴滴。百度方面表示,每天用户上传到百度网盘的照片大约有10亿张,百度网盘也在持续优化图片的搜索功能,帮助用户做好存储和管理。百度网盘提供了自然语言的搜图能力,用户只需描述场景,即可轻松找到相应图片,此外还可通过AI创意修图完成自由创作。自2012年诞生以来,百度网盘已服务

  • “文心杯”创业大赛走进第三年:灯塔、沃土和百度的决心

    文章回顾了2011年移动互联网兴起时提出的SoLoMo(社交、本地化、移动)概念,指出字节跳动、美团等成功企业并非简单遵循该模式,而是将其融入产品体系。当前AGI(通用人工智能)时代类似移动互联网初期,极客公园张鹏提出创业者应关注大模型边界能力和数据流动。李彦宏认为原生多模态大模型是迈向AGI的重要一步,2025年可能成为AI智能体爆发元年。百度举办的"文心杯"创业大赛为AGI创业者提供技术、资源和资金支持,参赛项目覆盖多个领域。百度还发布了文心大模型4.5Turbo和X1Turbo,价格大幅下降,并推出无代码编程工具"秒搭"和MCP协议,降低开发门槛。文章强调AGI时代需要创新的"流水线",而"文心杯"类似移动互联网时代的创业灯塔,为开发者提供丰富资源。

  • 百度宣布3年开放2.1万个校招实习岗:还要培养AI技术大佬

    百度招聘官宣,未来三年,百度将开放21000个实习岗位给优秀校园人才,并持续加强对实习生的培养,进一步提升实习转正率。据介绍,今年3月,百度已面向在校学生开放3000暑期实习岗位,87%与AI相关,覆盖大模型、机器学习、无人驾驶等领域。此外,百度今年也将启动管理培训生计划、AIDU计划,面向AI领域招募顶尖校园人才,致力于培养AI时代核心