首页 > 动态 > 关键词  > 原创网站最新资讯  > 正文

百度工程师披露百度原创识别“起源”算法细节

2013-05-17 14:18 · 稿源:站长之家

站长之家(chinaz.com)5月17日消息:昨日,百度搜索团队工程师LEE发布文章表示,百度已经抽调大量人员组成原创项目组,致力构建原创环境,推动中文互联网的前进。同时,百度披露了原创识别系统-“起源”算法的部分细节。

据百度工程师LEE称,百度原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

同时LEE表示,通过实验以及真实线上数据,百度原创识别“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。

百度站长平台LEE发布的全文内容如下:谈谈原创项目那点事

一、搜索引擎为什么要重视原创

1.1采集泛滥化

来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

1.2提高搜索用户体验

数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

1.3鼓励原创作者和文章

转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。

二、采集很狡诈,识别原创很艰难

2.1采集冒充原创,篡改关键信息

当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

2.2内容生成器,制造伪原创

利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。

2.3网页差异化,结构化信息提取困难

不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。

三、百度识别原创之路如何走?

3.1成立原创项目组,打持久战

面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。

3.2原创识别“起源”算法

互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。

3.3原创星火计划

我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。

目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。

最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。

举报

  • 相关推荐
  • 大家在看
  • AI时代,百度依然风平浪静

    2023年11月20日,百度发布2023年第三季度财报。虽然整体表现环比第二季度并未出现较大增长,但可以看出,苦守AI多年的百度,终于在大模型时代看到了黎明。生产力革命从来不是一蹴就,百度也不吝试错的时间与耐心,只是如何把握大模型扩散的窗口期,百度还需要更多成绩才能获得市场的认可。

  • 百度与孚宝智能合作 百度灵医大模型将接入孚宝机器人

    百度灵医智惠与浙江孚宝智能科技有限公司签署战略合作协议。双方将发挥各自技术、产品、市场优势,推动医疗康养机器人的技术创新和服务升级,为智慧康养产业注入创新动能。灵医大模型发布一个月内,已有超过上千家各类医疗企业机构测试使用,涵盖公立医院、连锁药店、互联网医疗、高校、医药器械等多种类型。

  • 华为原生鸿蒙愈加强大!百度开始招聘相关人才

    在今年华为秋季全场景新品发布会上,余承东宣布全面启动鸿蒙原生应用后,多个国内头部厂商已布局鸿蒙原生应用的开发,一起形成鸿蒙千帆起”的景象。百度也在其招聘官网新增了鸿蒙系统相关的岗位,该岗位名为搜索客户端研发组_搜索产品研发部_鸿蒙系统APP研发工程师”,工作地点位于北京市。小红书、同程、美团、新浪、去哪儿、钉钉、石墨文档以及飞常准等也已经官宣启动鸿蒙原生应用开发或已完成开发。

  • 百度:任命京东CEO许冉担任独立董事

    快科技11月21日消息,百度今日发布了截至9月30日的2023年第三季度财报:总营收为344亿元,同比增长6%。归属于百度的净利润为67亿元,不按美国通用会计准则,归属于百度的净利润为73亿元。同时,百度宣布,已任命许冉担任公司独立董事,自2024年1月1日起生效。公开资料显示,2020年6月至2023年5月,许冉担任京东集团首席财务官(CFO)。2023年5月起,担任京东集团首席执行官(CEO)兼执行董事。据悉,许冉在财务、投融资、公司治理等领域具有丰富的专业经验、极高的行业影响力和优秀的国际视野。2018年7月加入京东集团,以来在京东零售集团

  • 百度飞桨文心生物计算大模型宣布升级 构象预测准确提升

    百度飞桨螺旋桨团队宣布升级了两个生物计算大模型:蛋白质-小分子对接构象预测模型HelixDock和蛋白-蛋白复合物结构预测模型HelixFold-Multimer。这两个模型的准确度大幅提升,能够为基于结构的药物设计提供更可靠的基础。百度飞桨螺旋桨团队也表示将会面向公众开放这些模型,希望能够推动生物计算领域的技术变革。

  • 从模型底座到应用生态,百度AI战略走向纵深

    在当今这个数字化时代中,人工智能技术正在以一个十分惊人的速度改变着我们的生产生活与思维方式。在大模型正式“出圈”一年来的时间里,如此趋势更是像潮水一般快速进入了我们生活中的每一个角落,同时,伴随着人工智能的革命,对于哪些众多长期耕耘于AI领域的巨头企业来说,也出现了重新站在了潮头之上、引领时代发展的最好契机。在这个过程中,众多使用百度平台、应用的企业和用户也会在不知不觉之间与百度生态加速融合,共同生长,共同繁荣。

  • 百度百家号:加创作工具平台“AI笔记”功能将下线

    百度百家号发布《关于度加创作工具平台【AI笔记】下线通知》称,由于业务升级调整,将于2023年11月30日起对度加创作工具平台-【AI笔记】功能进行下线,其他功能不受影响,仍可正常使用。创作者在下线前,需要及时备份未发布的笔记草稿,下线后未发布的笔记草稿将自动清理,不再保留。百度百家号宣布基于百度AI大模型上线「百家号AI助手」功能,创作者可体验基于热点内容一键生成优质文章,可登录百家号PC后台首页进行体验。

  • 乌镇峰会十年,“桨”声“心”影里的百度AI

    11月8日,2023年世界互联网大会乌镇峰会开幕。世界互联网大会早已成为国内规格最高的科技盛事,是展现全球数字经济最新科技成果的舞台,是观察数字经济潮水奔涌方向的瞭望台,堪称数字经济风向标。在全新的AI阶段,百度早已做好了准备,文心加飞桨,翩然赴星河。

  • 爱聊科技斩获百度“卓越成就奖”,砥砺前行终有所成!

    近日,由百度营销主办的 2023 百度热AI营销大会在上海举行,大会以“生成式AI重构商业新引擎”为主题,现场发布了 2023 百度热AI年度大赏榜单,爱聊科技作为百度优秀合作伙伴,依托百度营销平台开展了多维度营销,强化了品牌声量,提升了品牌影响力,荣获 2023 百度热AI年度大赏“卓越成就奖”。(颁奖现场图)百度“卓越成就奖”旨在表彰通过百度营销平台,探索经营增

  • 上线3年,百度的Gravity终于在日本赚到了钱

    自2020年12上线至今,Gravity终于开始从日本市场收获回报了。2021年8月的一天,笔者偶然发现百度国际在日本上线了一款名为Gravity的灵魂交友应用,可以粗浅理解为日文版Soul,于是便有了《百度在日本做的灵魂交友应用,出乎意料的好》。也仍然有用户在默默守护着自己从大社媒逃离后找到的寄托。

  • Gladia:使用强大的AI语音转文本API,实现智能转录和翻译

    Gladia I Speech-to-Text API 是一款基于先进的Whisper ASR技术的语音转文本API,能够将语音内容转录成文本,并提供翻译和音频智能分析的增值功能。它可用于虚拟会议、工作协作、内容制作和呼叫中心等多个场景。该API具有出色的转录准确性和可靠性,同时提供多语种翻译和音频智能分析功能,帮助用户更高效地处理语音内容。定价灵活透明,支持开发者根据需求选择适合的套餐。Gladia I Speech-to-Text API致力于为开发者提供强大的语音处理能力,助力他们构建创新的语音应用。

  • Simplify:将YouTube视频简化为简明摘要

    Simplify是一个能够将YouTube视频转换为简明易懂摘要的插件。它可以帮助用户快速领会长视频中的关键概念,提高学习效率。同时,避免了无关内容的干扰,节省宝贵时间。此外,摘要使得内容对于那些更喜欢阅读而非观看视频的人,或者有听力障碍的用户更易获取。

  • Renovy:AI 室内设计

    Renovy 是室内设计的未来,将您的个人风格与人工智能相结合,改变您的居住空间。使用 Renovy,只需拍照,即可实现家居革命。

  • ShopMigo:您好,我是。我能为您今天的购物提供什么帮助?

    ShopMigo是一款智能购物助手,能够帮助用户快速找到各类商品,并提供个性化的购物建议。通过语音或文字交互,用户可以寻找礼物、电脑、电子产品、一般商品以及阅读商品评价。ShopMigo由GenAI Tech™开发。

  • StockPhotoAI:AI生成个性化高质量股票图片网站

    StockPhotoAI.net是一个AI生成个性化高质量股票图片的网站。用户只需要用文字描述需要的图片,它就会使用开源的DALL-E模型生成专业的图片。图片可以用于PPT、网站、印刷品等。

  • REWIN.AI:利用AI驱动工具优化视频脚本提高传播力

    Rewin是一个利用AI技术为用户自动生成视频脚本的在线写作工具。它可以分析Youtube和Tiktok等平台上的热门视频,自动转换并优化脚本,帮助用户迅速获取更多创意,大幅提高内容制作效率。主要功能包括一键转换热门视频脚本、自动生成相关推荐、优化脚本传播力等,适用于视频创作者、内容营销人员、自媒体运营者等用户,可以有效降低他们的内容制作成本,提高创作效率。

  • 秘塔写作猫:AI写作,文章自成

    秘塔写作猫是一款集AI写作、多人协作、文本校对、改写润色、自动配图等功能为一体的AI Native内容创作平台。它能够帮助用户高效地进行文章创作,提供多种写作辅助功能,同时支持多人协作,能够自动进行文本校对与改写润色,并提供自动配图功能。秘塔写作猫的定位是为用户提供高效、便捷的AI写作体验。

  • pre:快速项目规划与开发平台

    pre.dev是一个快速项目规划与开发的在线平台。它能够通过AI智能对话快速提取项目需求,生成项目架构图,明确工作组件,方便项目管理。它还提供端到端的工程服务,包括项目开发、部署和后续维护。定价从每月$249到企业级报价。目标用户包括产品经理、自由职业者和创业者。

  • vellum.ai:开发LLM应用的平台

    Vellum是一个用于构建LLM驱动应用的开发平台。它具有提示工程、语义搜索、版本控制、测试和监控等工具,可以帮助开发者将LLM的功能引入生产环境。它与所有主要的LLM提供商兼容,开发者可以选择最适合的模型,也可以随时切换,避免业务过于依赖单一的LLM提供商。

  • BookHero:改变家长讲故事的方式

    BookHero是一个用于帮助孩子提高词汇和拼写能力的产品。用户可以从我们的图书馆中选择超过100本书籍进行阅读,或者仅需几分钟即可创建自己的书籍。我们创作了1000多幅精美插图,帮助孩子扩展词汇和提高拼写能力。我们致力于改变家长讲故事的方式,让阅读变得更加有趣和互动。

  • D-ID Creative Reality:人工智能视频生成APP,支持上传单张图片生成说话视频

    D-ID APP利用人工智能技术,可以通过上传单张图片生成说话的视频。支持上传自己的语音,对上传图片中的人物进行 Lip Sync。视频效果逼真,提供了三种版本:Lite 免费版本,Pro 每月$29,Advanced 每月$195.99。APP 在图像处理和视频生成方面做得很出色。

  • Gorilla Terminal:AI驱动的投资研究工具

    Gorilla Terminal是一款AI驱动的投资研究工具,通过强大的工具和智能洞察力,提供更高效、更愉悦的解决方案。其功能包括分析收益电话、获取宏观经济数据、风险管理、供应链分析、回归分析、风险价值分析、行业概况、终端界面等。该产品定价灵活,定位于为投资者提供快速、准确的投资研究工具。

  • Mail Helper:帮助您更好地撰写电子邮件

    Mail Helper是一款AI电子邮件撰写工具,针对经常需要给外国人写邮件的用户。用户只需告诉它想要表达的内容,它将生成地道生动的当地语言邮件,而不仅仅是简单的翻译。支持20多种语言,适用于日常办公沟通、客户开发和维护等高频场景。用户的隐私将得到严格保护,上传的数据仅用于生成邮件内容,不会存储。

  • Machined:SEO优化文章,自动生成内容集群

    Machined能够自动生成大量关于任何你喜欢的主题的信息性文章;结构化、撰写和相互链接,符合搜索引擎的喜好。Machined完全自动化创建内容集群的整个过程,包括关键词研究、关键词聚类、内容撰写和内部链接。

  • Any Summary:AI快速分析和总结长篇文件

    Any Summary是一款基于人工智能的文件分析和总结工具,能够快速分析和总结长篇文件,包括音频、视频和文档。用户可以自定义总结的格式,也可以让AI根据文件内容自动生成总结。该产品定位于提高工作效率,帮助用户快速获取文件的关键信息和见解。

  • Swifty AI:Swifty是一款以AI为驱动的商务出行助手,可以在几分钟内规划您的商务行程并预订最优机票和酒店。

    Swifty是一款基于AI的商务出行助手APP。它可以在几分钟内为您规划完整的商务行程,通过简单的聊天界面预订航班和酒店。 Swifty的优势在于: 1. 规划行程极为便捷,通过语音或文字与AI助手交流即可 2. 提供行程确认函、发票和收据等商务所需文件 3. 可随时询问行程相关问题,Swifty将为您提供解答 Swifty可定价为免费版和付费增值服务。它主要面向需要频繁商务出差的企业管理人员和白领。通过简化复杂的商务旅行规划,大幅降低行程管理的时间成本。

  • Adola:AI助手电话化,让交流更自然

    Adola是一款将AI助手赋予电话号码和人类化声音的产品。通过Adola,用户可以为其AI助手提供电话号码,使其能够进行真实的语音对话。Adola以无与伦比的速度和易用性,以每月25美元的价格(包括25分钟通话时间)让先进的通讯变得负担得起。用户可以从多种美国电话号码中选择,并且只需输入OpenAI API密钥即可将AI助手与电话线连接。此外,Adola还提供了全面的通话分析、24/7可用性、可扩展的解决方案等功能。产品定位于为用户提供便捷、实惠、安全的AI电话化解决方案。

  • PapermarkAI:Papermark AI是一款AI驱动的文档交互管理工具

    Papermark AI是一个AI驱动的文档管理和分享平台。它可以安全地分享和管理文档,确保机密信息得到保护。它还可以提供文档交互的实时分析,包括投资推介资料和销售材料的详细分析。主要功能包括:安全的文档分享、实时分析、定制链接分享、社区支持以及开源灵活性。

  • Breadcrumb:AI将您的数据转化为个性化的交互式视图。

    Breadcrumb是一款AI数据分析工具,能够将您的数据转化为个性化的交互式视图。其功能包括AI嵌入式交互、实时数据分析、数据转化为故事、可扩展性强等。无需数据技能,只需几分钟即可生成整个仪表板,并能够自定义数据故事。产品定位于为商业用户提供高效的数据分析和可视化工具。

  • Line 21:更好,更快,更多字幕

    Line 21是一款字幕交付软件,帮助机构创建、增强、翻译和交付实时字幕。它集成了广泛的服务,将字幕交付到各种终端,支持100多种语言的字幕、翻译和校对。优势在于快速交付字幕、自动翻译字幕以及提供人工智能校对功能。定价灵活,定位于帮助机构提高实时内容的包容性和可访问性。

今日大家都在搜的词: