首页 > 业界 > 关键词 > 搜狗搜索最新资讯 > 正文

超越华为盘古千亿模型 搜狗搜索再创中文语言理解评测CLUE世界第一

2021-05-31 10:06 · 稿源:站长之家用户

近日,搜狗搜索技术团队在CLUE(中文语言理解测评基准)的任务比赛中,基于自研的中文预训练模型击败了包括华为盘古在内的一众强劲对手,在CLUE总榜、分类总榜、阅读理解榜再次获得第一名,刷新业界记录。

IMG_256

“BERTSG”为搜狗搜索自研模型,“HUMAN”为人类成绩(不计入选手)

不惧业内强劲挑战 搜狗搜索用技术与算法彰显实力

作为中文语言理解领域最具权威性的测评基准之一,CLUE基于原始的中文文本语料共开设了 8 个方向的比赛,由文本相似度、分类、上下文推理、阅读理解等共 11 个子任务组成。此前,搜狗搜索曾长期霸榜CLUE多个任务比赛冠军宝座,但在今年 4 月遭遇到来自华为、阿里达摩院等竞争对手的强劲挑战,华为更是利用其两千亿参数模型盘古一度取得领先。

就在近日,搜狗搜索技术团队基于自研的中文预训练模型,一举超越华为盘古,再度在CLUE总榜、分类总榜、阅读理解榜获得冠军,展示了其在自然语义理解领域强大的技术创新实力和领先的AI算法能力。

据了解,搜狗搜索技术团队近一年来在预训练模型研发上加强投入,已完成从亿级到百亿级中文预训练模的研发,目前正开展千亿级中文预训练模型及多模态预训练模型的研发工作。搜狗搜索技术团队自研的预训练模型之所以能够比参数量更大的华为盘古在CLUE榜单取得更好的效果,主要是在训练语料、模型结构、训练方法三个方面进行了创新突破。

训练语料方面,凭借自身作为第二大搜索引擎的基础优势,搜狗搜索技术团队首先从万亿网页中筛选出10T优质语料,依托搜狗搜索的内容理解技术、大规模聚类等系统,进而从10T优质语料中精选出2T最终语料,这样在保证语料内容质量的同时,还可以确保内容的多样性,从训练语料上提升了模型的训练效率和泛化能力。

模型结构方面,原始的BERT模型使用了Post-LN的结构,该结构的弊端是在训练超大模型时,若没有设置好warmup,会导致收敛效果变差。而搜狗的预训练模型在结构上采用了Pre-LN的方式,大大提升了训练效率。

而在训练方法方面,搜狗搜索技术团队做了两方面的创新优化。第一,采用了cross thought预训练方法,同时引入对比学习训练方法,解决原始BERT模型学习出来的cls token向量存在各向异性的问题,大大增强预训练模型的表征能力,使得下游任务效果得到明显提升。第二,加入了根据文章标题生成和段落顺序预测两个任务,进一步增强预训练模型的文章理解能力。具体而言,在标题生成任务上,输入一篇文章的内容和标题,并且对文章和标题都做词语级别的mask操作,文章mask策略与Roberta-wwm采用的策略一样,标题则mask超过80%的词。而段落顺序预测任务的目标是预测段落之间的上下文关系,在加入这两种预测任务后,预训练模型的效果得到明显提升。

搜狗搜索NLP技术长期领先,成功落地产品、加速赋能行业

与此同时,此次搜狗搜索自研预训练模型在CLUE总榜、分类总榜、阅读理解榜再度获得冠军,也意味着搜狗搜索在自然语言预训练、语义理解、长文本和短文本分类、阅读理解、问答等领域皆持续处于业界领先水平,展现了其在NLP的超群实力。在此之前,搜狗搜索还曾在国际阅读理竞赛CoQA等竞赛中取得了冠军的成绩。

事实上,搜狗搜索之所以在NLP领域长期处于领先地位,与搜狗公司长期专注在自然语言处理领域进行深耕细作密不可分。作为一家将AI作为企业基因的公司,搜狗基于搜狗搜索、搜狗输入法等核心产品,一直坚持其以语言为核心的AI战略,并成功进行了一系列AI技术创新和产品落地实践。

据了解,搜狗自研的预训练模型已在搜狗搜索产品中落地,大幅提升了用户的搜索效率和体验。此外,相关技术在语言翻译、聊天机器人、知识图谱等领域也具有广泛的应用空间。

  • 相关推荐
  • 大家在看
  • 淘宝搜索优化调整 部分商品搜索后出现导航和筛选词

    在618来临之前,淘宝又对搜索进行了一系列调整。剧电商在线消息,近日,淘宝在搜索方面进行了细微调整。当用户搜索部分品类商品时,其搜索结果上方会出现一排导航和筛选词。

  • 搜狗发布手语AI合成主播 可达90%以上识别

    在“2021搜狐科技5G&AI峰会”上,搜狗公司CEO王小川发布了手语AI合成主播产品,可以进行独立工作,且不需要语音提取,通过嘴形变化达到60%以上识别;将语音与口型相结合,在语音嘈杂的环境中用视觉也可以达到90%以上的识别能力。王小川表示,“这不止是处理文字、语音或者简单图像的合成,而是在语音图像的合成里面找到核心的技术。”

  • 搜狗成立智能科技新公司,注册资本1000万

    5月11日,北京搜狗智能科技有限公司成立,法定代表人为杨洪涛,注册资本1000万元人民币,经营范围包含:设计、制作、代理、发布广告;销售计算机、软件及辅助设备、通讯设备、文化用品、电子产品、通讯设备等。企查查股权穿透显示

  • 这样的“新搜索”营销红利,你抓到了吗?

    现在人们除了看内容,更喜欢搜内容,从带着问题搜索,到带着兴趣搜索,“新搜索”时代已经来临。然而新搜索“新”在哪里?是新的搜索工具?新的搜索行为?还是新的搜索路径?对于广告主而言,“新搜索”又能带来哪些有别以往的营销新价值?5月13日,Morketing Brand Summit 2021峰会现场,巨量引擎搜索广告负责人焦颖颖分享了巨量引擎视角下的“新搜索”定义,以及新搜索带来的新价值,通过解析新搜索玩法,帮助不同行业的品牌广告

  • 搜狗输入法小米MIUI定制版长辈模式上线:更简洁清晰

    母亲节之际,搜狗输入法宣布,搜狗输入法小米MIUI定制版长辈模式上线,这个母亲节给妈妈送上特别的关爱。据数据显示,目前我国使用手机的老年人约2.7亿,但会用手机上网的老年人仅1.3亿。在智能手机时代,看不清、打字慢...这都是老年人探索网络世界遇见的阻碍。长辈模式的键盘、按键面积更大,字母更大,配色对比度变高,设计简洁而醒目。而且默认进入手写键盘,提供长辈们喜欢的毛笔笔迹效果,支持更长等待的识别时间,思考时间更

  • 搜狗输入法携手小米MIUI上线长辈模式 助力老年人融入智能社会

    近日,积极响应国务院关于推出“关怀模式”、“长辈模式”的适老化应用改造号召,搜狗输入法和小米MIUI联手合作,一起打造推出了专为老年人量身定制的搜狗输入法小米定制版长辈模式。搜狗输入法小米版长辈模式上线:完美适配MIUI系统,简单易操作据了解,搜狗输入法小米定制版的长辈模式与普通输入法最大的不同是,除了完美适配MIUI系统之外,还围绕老年人的输入需求和输入场景,对产品进行了适老化创新和无障碍改造,目的是帮助老

  • Flash大厅游戏推荐新增搜索功能

    Flash大厅是Flash中国官方在Flash Player的基础上进行功能优化,全新推出的软件化升级产品。除了Flash Player正版软件的下载、Flash修复工具的运行外,Flash大厅还支持游戏推荐功能,可以让用户便捷地了解到优秀的Flash游戏等产品。Flash大厅收录的游戏类型多样,种类丰富,可以满足用户的各类游戏需求。但是海量游戏的收录也让用户寻找、识别自己喜欢的游戏变得不再简单,对于游戏搜索功能的需求与日俱增。近期,Flash大厅进行了?

  • 湖北健康码有金色皮肤了 支付宝可搜索查看

    湖北健康码有金色皮肤了。5月18日起,“湖北健康码”全新升级,凡接种过新冠疫苗的湖北居民,其“湖北健康码”会自动加上金色边框,湖北健康码中心区域多了一枚金色的小盾牌。健康码下方还有一个针剂图标,表示该“湖北健康码”持有人已接种新冠疫苗。

  • 百度搜索违规整顿月报

    昨日,百度搜索资源平台发布了2021年4月百度搜素违规行为整顿月报。据了解,在整顿违规站点方面,2021年4月份百度搜索共整顿3.8亿个作弊站点、智能小程序及网页,覆盖快排技术、恶劣采集、网站劫持、欺骗下载、视频作弊、小说作弊等问题。

  • 巨头再战「搜索」:微信字节都在加码,但思路变了

    自 PC 时代,百度一统搜索江湖后,中国的搜索领域已接连数年无战事了。然而近期,随着字节、微信、阿里等巨头密集入局,搜索赛道又迎来了久违的兴奋。

  • 网信办通报App违规收集个人信息情况 搜狗腾讯百度被点名

    凤凰网科技讯 5月1日消息,针对人民群众反映强烈的App非法获取、超范围收集、过度索权等侵害个人信息的现象,国家互联网信息办公室依据相关法律和有关规定对部分APP进行检测,通报33款App违法违规收集使用个人信息的情况,要求相关App运营者应当于通报发布之日起10个工作日内完成整改,逾期未完成整改的将依法予以处置。在通报中提到,搜狗、讯飞、百度等15家输入法类APP和高德地图、百度地图、腾讯地图等17家地图导航类APP主要问?

  • 搜狗第一季度营收1.37亿美元 同比下降47%

    搜狗公司(NYSE: SOGO)今天发布了截至3月31日的2021财年第一季度未经审计财报。财报显示,按照美国通用会计准则(GAAP)计算,搜狗第一季度总营收为1.372亿美元,同比下降47%;归属于搜狗公司的净利润为3530万美元,上年同期净亏损3160万美元。

  • 苹果推出App Store搜索建议功能

    据国外媒体报道,苹果正式在App Store上推出了搜索建议功能,将使搜索应用变得更加容易。

  • Google介绍如何利用搜索结果中的新来源功能打击假新闻

    Google在周二举行的GoogleI/O开发者大会主题演讲中介绍,Google搜索正在使人们更容易评估信息,并核查显示在其搜索平台上的结果的来源。当用户在Google上搜索某样东西时,一个名为 "关于这个结果"的新功能将出现在你的结果列表中的某个网站下。该功能将向你展示该网站如何描述自己,其他网站对它的评价,再引用它的维基百科页面(如果有),这样人们就可以对哪些网站值得信任做出更明智的决定。更多网站的评估结果将随着时间的推移

  • Facebook将在印度的移动应用上推出疫苗搜索工具

    据国外科技媒体报道:Facebook已与印度政府合作,在其印度的移动应用程序上推出疫苗搜索工具。

  • 搜狗Q1营收1.37亿美元同比下降47% 私有化将在Q2后完成

    搜狗公司(NYSE: SOGO)今天发布了截至3月31日的2021财年第一季度未经审计财报。财报显示,按照美国通用会计准则(GAAP)计算,搜狗第一季度总营收为1.372亿美元,同比下降47%;归属于搜狗公司的净利润为3530万美元,上年同期净亏损3160万美元。

  • 这也能双标?苹果在搜索界面引入付费广告推荐单元

    随着在 iOS 14.5 中引入增强型的因公追踪透明度(简称 ATT)功能,理论上苹果能够帮助不愿意加入广告追踪活动的用户减少 App 中的个性化广告投放。早前有报道称,只有不到 4% 的用户愿意接受被 App 开发者追踪。意味此举可能大幅降低由 Google 或 Facebook 等公司投放的广告效果,从而让那些依赖广告来支撑运营的 App 和服务的收益大减。(图 via MSPU)然而出乎许多人意料的是,大约的同一时间,苹果还向自家搜索服务引入了新的付

  • Google AMP已死:AMP页面在谷歌搜索结果中将不再受“优待”

    谷歌近日宣布将会在 2021 年 6 月对页面体验排名算法进行重大调整,砍掉加速移动页面 (Accelerated Mobile Pages,简称AMP)的权重。在核心网络指标和页面体验算法发布之后,谷歌在搜索结果、Top Stories carousel、Google News 中就不再推荐 AMP,甚至于在搜索结果中删除 AMP 徽章图标。谷歌表示Google Search 中的 Top Stories carousel 功能即将被更新到涵盖所有新闻内容。这意味着不再需要使用 AMP 格式,任何页面,无论其核心?

  • 巨量算数新增搜索指数功能,精准把握用户主动关注内容风向

    当内容营销成为品牌与用户沟通、连接的重要方式,如何在内容场景下实时把握热点风向?如何更精准地洞察用户对内容的关注度?伴随用户“边看边搜”的行为习惯养成,内容生态中搜索的精准导流作用开始凸显。用户在内容平台上的搜索行为趋势,不仅反映的是用户内容关注的变化,更影响着搜索广告、内容种草等营销效果的真实度量。为了更好地帮助个人或品牌进行抖音热点洞察、关键事件发展趋势研究、品牌热度对比等分析,巨量算数在算数

  • 百度搜索落地页标准新规:禁止页面主体内容折叠

    百度针对搜索落地页近期推出了新的规则,新的标准要求百度APP内,通过搜索分发的页面(智能小程序、H5页面),各级页面主体内容在展示完全之前不允许折叠。简单的说,这要求在搜索结果页面完整展开,保障用户的浏览体验

  • 热门标签

热文

  • 3 天
  • 7天