首页 > 传媒 > 关键词  > 器人最新资讯  > 正文

腾讯云小微技术登顶榜单XTREME基准,跨语言技术迁移开发助力企业出海

2022-06-14 09:50 · 稿源: 站长之家用户

近日,腾讯云小微提出的多语言预训练模型“神农MShenNonG”以平均分85分的成绩登顶XTREME榜单。与此同时,该模型仅包含5亿级别的小参数量,也一举刷新业界纪录。

据了解,该榜单是目前最受国内外行业公司认可的多语言评测榜单,研究人员以多语言预训练模型在此榜单的表现作为其跨语言迁移能力的评价标准。

目前,全球有超过6900种语言,其中大多数语种都没有足够的数据支撑研究者将其单独训练成成熟模型。腾讯云小微深耕知识挖掘、语义理解技术以及预训练技术,“神农MShenNonG”此次登顶XTREME榜单,代表了其从单语言到多语言理解能力的一个显著扩展,将跨语言迁移开发由市场平均的月级降低至10天。同时,“神农”系列的预训练模型已应用于云小微全系列产品矩阵,可显著提升AI语音助手、智能客服机器人数智人等产品的多项技术指标,助力出海企业快速落地本地化服务。

刷新行业纪录,跨语言迁移开发周期缩短至10天

凭借对自然语言应用程序等领域发展研究的积极作用,XTREME榜单备受业界认可。

由于大多数的NLP预训练模型主要为中文、英文等高资源语种,低资源小语种的研究并未得到足够重视。2020年,来自 CMU、谷歌研究院和 DeepMind 的科学家们提出了覆盖四十种语言、横跨了12个语系的大规模多语言多任务基准 XTREME,其中包含了9项需要不同句法或语义层面进行推理的任务,并可以为语句文本分类、结构预测、语句检索和跨语言问答等自然语言处理任务提供有效支持。

此次登顶XTREME榜单,主要是由于“神农MShenNonG”在以下三个不同维度做了创新性的尝试。

首先,在数据层面,预训练模型的训练数据主要由两种形式的数据构成:单语种句子和双语平行句对。此前的模型处理方法是,对于单语种句子,单纯地将单语种信息输入模型,并以MLM作为训练目标,非常依赖相似语系之间“共享词”的预测来建模各语言间的语义对齐关系;对于平行句对,又依赖平行语料的规模和组合,模型对其对齐关系的建模存在一定缺陷。为缓解以上问题,腾讯云小微研究团队提出了基于混合编码的数据构造方式,分别利用双语对齐词典和句子检索工具,构造大量的“多语言混合”训练数据。

其次,在模型层面,研究团队提出了一种可插拔的、基于多尺度的多语言信息融合模块,分别从词级别和句子级别多个尺度融入多语言信息,期望在训练过程中,加强所有语种的词向量的更新和对齐,解决多语言模型对低资源语种、低频次词汇建模较弱的问题。

第三,在训练方式上,研究团队分别通过语种层面和语义层面引入对比学习策略,使得相同语义的表示相互拉近,不同语义的表示相互远离,进一步强化多语言预训练模型对于多语言的语义建模能力和语义匹配能力。

值得注意的是,研究团队重视多尺度的多语言的一致性建模,以强化预训练模型的跨语言迁移能力,并将跨语言迁移开发由市场平均的月级降低至周级,同时,相较市场平均1个月以上的模型迭代周期,“神农MShenNonG”仅需10天。

多次登顶权威榜单 神农以技术优势探索出海场景

“神农MShenNonG”登顶XTREME榜单,依托于腾讯云小微团队技术研发和行业知识的长期积累。此前,腾讯云小微的中文预训练模型ShenNonG就以十亿级参数量一举登顶CLUE总排行榜、1.1分类任务、阅读理解任务和命名实体任务四个榜单,刷新行业纪录。

专注于语义理解技术以及预训练技术的研发,此次登顶XTREME榜单代表了腾讯云小微从单语言到多语言理解相关技术的一个扩展。目前,“神农”系列的预训练模型已应用于全系列产品矩阵,可显著提升AI语音助手、智能客服机器人、数智人等产品的多项技术指标。

随着开发的不断成熟,优势产品向海外拓展成为不少国内企业的选择。但产品出海通常要面临适应新语种、业务本地化的挑战。过往,以机器翻译的方式将单语种迁移到多语言场景,不仅费时费力,效果也差强人意。相对于传统的机器翻译模式,腾讯云小微“神农MShenNonG”预训练模型有着低成本、低门槛的优势,以轻量参数为多行业、小语种提供跨语言迁移服务,助力企业降本增效,落地出海业务。

未来,腾讯云小微团队还将持续深耕知识挖掘和深度学习技术,探索更多技术落地场景,以科技助力各行业的企业更好地服务用户,为社会创造更多价值。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 有卖家凭居家健身单品狂揽百万美金战绩,赛盈分销超强助力企业出海掘金!

    中国居家健身品牌正在全球市场掀起热潮。Flybird、HOTWAVE等品牌通过TikTok直播带货创下销售奇迹,单日售出数万台健身设备。数据显示,全球家庭健身市场规模已达119亿美元,预计2032年将飙升至667亿美元。北美市场占比近40%,欧美和亚太地区需求强劲。中国卖家凭借轻量化、智能化产品设计和对市场趋势的敏锐把握,成功打开海外市场。赛盈分销平台为零库存卖家提供优质货源和海外仓服务,助力中小卖家轻松布局。随着健康意识提升,居家健身赛道将持续爆发,2024年相关产品销售增长超50%。

  • 腾讯云助力文博会打造AI会展助手“文小博”,提升参展方交易磋商效率

    第二十一届中国(深圳)国际文化产业博览交易会于5月22-26日在深圳国际会展中心举办。本届文博会开启智能会展新时代,推出由腾讯云AI技术打造的"文小博"智能助手,通过深度重构会展服务体系,为参展方带来全新AI体验。"文小博"依托腾讯混元大模型+DeepSeek双模底座能力,可自动生成参展商精准画像,实现智能匹配、实时翻译等功能。展会设置8大展馆,展览面积达16万平方米,吸引超30万专业采购商参与。文博会还与腾讯云合作打造"演艺出海推介舞台",推动国际文化交流。AI助手贯穿展会全场景,提供智能问答、交易风险评估等服务,并打通微信生态实现服务闭环。腾讯云宣布将大模型知识引擎升级为"智能体开发平台",助力企业构建专属智能体。"文小博"作为"大模型+知识库"创新标杆,标志着文博会正式迈入智能会展新时代。

  • 再次入选!腾讯云入选Gartner®WAAP市场指南代表厂商

    Gartner发布《云Web应用和API保护市场指南》报告,腾讯云WAF产品连续第二年入选代表厂商。报告指出,云WAAP解决方案通过集成检测和预防控制组合,提供Web应用防火墙、BOT流量管理、API安全和DDoS防护等核心功能。腾讯云WAF依托20余年安全运营经验,打造基于AI的一站式Web业务防护方案,支持SaaS、CLB和混合云等多种接入方式,其创新"旁挂式"CLB-WAF架构具有快速接入、低延迟等特点。在BOT管理、API安全等场景具备独特优势,其中AI驱动的Anti-BOT方案拦截准确率达99.9%,API安全方案可全面梳理API资产并识别风险。典型案例显示,该方案曾帮助某医院避免百万级敏感数据泄露,并在茶饮品牌营销活动中成功拦截4000万次攻击。

  • 腾讯云天御发布海外交易风控解决方案,AI+情报双擎护航企业全球化安全

    中国企业在全球化浪潮下加速出海布局,截至2024年底,中国对外直接投资存量近3万亿美元,位列全球第三。但跨境交易面临复杂安全威胁,包括数据泄露、账户盗用等风险。2023年全球电商欺诈损失达480亿美元,其中跨境支付欺诈占比显著。腾讯云天御推出智能风控方案,通过AI动态风控和全球情报中枢双引擎,实现支付欺诈拦截率99.5%,合规适配效率提升70%。方案构建三层防护体系:智能人机验证识别真人用户、设备指纹技术穿透虚拟环境、分层分级实时拦截恶意行为。依托腾讯威胁情报云,方案能同步全球黑产特征库,并持续投入AI大模型研发提升风控能力。目前该方案已帮助某电商将欺诈率从0.9%降至0.25%,支付成功率从85%提升至89%,平衡了安全与业务增长需求。

  • 腾讯云安全发布上红蓝对抗防护神器,破解重保盲区与溯源难题

    腾讯云安全发布公有云全流量检测与响应NDR产品,定位为"红蓝攻防对抗防护神器"。该产品具有三大创新:1)云原生一键接入,无需硬件部署;2)全流量检测覆盖南北向、东西向及加密流量;3)全流量可视化分析。产品已通过200+客户实战检验,能快速溯源定位资产异常。相比传统方案,部署成本降低80%,支持180天日志存储,内置2000+漏洞检测规则和AI分析引擎,可精准识别30种协议异常。尤其突破加密流量分析难题,无需客户提供证书即可解密检测。该产品将助力企业构建高级威胁防护能力,应对重保响应、内网防护等核心安全挑战。

  • 技术选型别盲目:为什么很多企业用错了分布式数据库?

    本文探讨了分布式数据库的适用场景与选择误区。文章指出,分布式数据库并非万能解决方案,其最大优势在于横向扩展能力,适合互联网业务的海量用户、高并发等场景。但在传统企业级应用中,集中式数据库可能更优。文中列举了三种常见的"伪分布式"需求场景:分布式应用、多租户需求和跟风采购,强调技术选择应回归业务本质。最后以金仓数据库为例,介绍了�

  • 激光电视迎来重大突破!海信三大创新技术将实现影院级视听无损迁移

    海信激光电视2025年旗舰新品探索X1系列将于5月20日正式发布。该产品采用IMAX同源放映机、9.1.4声道、纳米光选屏Pro等核心技术,实现1000nits峰值亮度、110% BT.2020广色域,搭载SST架构DMD控光芯片提升画质。通过激光显示技术实现"源自影院,超越影院"的视听体验,配备100/120英寸大屏,采用0有害蓝光等护眼技术。产品定位家庭影院场景,将IMAX影院级视听效果带入客厅,开启家庭观影新时代。

  • 盯与腾讯云达成战略合作 共探智慧零售新未来

    腾讯云凭借巨大的社交流量体系、成熟的私域运营能力、丰富的零售行业经验及强大的产品技术能力,成为零售企业数字化转型的重要合作伙伴。

  • 小赢卡贷:以科技赋能金融创新,助力小微企业高质量发展

    深圳小赢科技凭借金融科技创新能力入选第五届"NIFD-DCITS金融科技创新案例"20强,其自主研发的WinSAFE智赢体系以AI技术为核心,构建覆盖金融业务全流程的数字化解决方案,包含智能获客、风控管理、智能服务三大模块,有效赋能中小微企业。同时打造WinPROT赢护安全体系,通过AI实时监测、数据加密等技术构建360度安全防护屏障。该案例展现了金融科技服务实体经济的创新实践,为行业数字化转型提供标杆示范。未来小赢将持续深化科技研发,以更智能、安全的金融服务助力中小微企业发展。

  • 腾讯云入选Gartner®《如何建设实施网络检测与响应》报告全球代表厂商

    Gartner发布《如何建设实施网络检测与响应》报告,为安全技术人员提供NDR实施架构指导。报告提出结构化方法,包括准备阶段和三个实施步骤:1)架构设计;2)产品选型与POC评估;3)资源规划部署。腾讯云NDR凭借多层检测引擎、全流量分析建模等核心能力入选全球29家代表厂商。其产品具备检测场景全、响应快、阻断率高等优势,支持混合云部署,采用AI算法实现异常流量检测,并提供开放API集成能力。在2024年攻防演练中,腾讯云NDR成功帮助某大型银行阻断近20亿次攻击。