首页 > 传媒 > 关键词  > 云从科技最新资讯  > 正文

机器阅读理解超越人类!云从科技创自然语言处理新纪录

2019-03-08 15:31 · 稿源: 站长之家用户

继国际象棋、围棋、游戏等领域之后,人工智能首次在深度阅读理解超越人类。

2019 年3月8日,中国人工智能“国家队”云从科技和上海交通大学联合宣布,在自然语言处理(NLP Neuro-Linguistic Programming)上取得重大突破,在大型深层阅读理解任务数据集RACE数据集(ReAdingComprehension dataset collected from EnglishExaminations)登顶第一,并成为世界首个超过人类排名的模型。

有评论认为,这会是机器深层理解人类语言的开端。

论文中,云从科技与上海交通大学基于原创DCMN算法,提出了一种全新的模型,使机器阅读理解正确率提高了4. 2 个百分点,并在高中测试题部分首次超越人类(机器正确率69.8%、普通人类69.4%)。

这一研究成果,在应用领域搭配文字识别OCR/语音识别技术后,NLP将会帮助机器更好地理解人类文字/语言,并广泛应用于服务领域:帮助企业判断客户风险、审计内部文档合规、从语义层面查找相关信息;在社交软件、推荐引擎软件内辅助文字审阅工作,从枯燥的人工文字工作中解放人类。

突破语义理解瓶颈

此次云从科技和上海交通大学在自然语言处理(NLP)领域的深度阅读理解上登顶RACE排行榜第一名。RACE是一个来源于中学考试题目的大规模阅读理解数据集,包含了大约 28000 个文章以及近 100000 个问题。它的形式类似于英语考试中的阅读理解(选择题),给定一篇文章,通过阅读并理解文章(Passage),针对提出的问题(Question)从四个选项中选择正确的答案(Answers)。该题型的正确答案并不一定直接体现在文章中,只能从语义层面深入理解文章,通过分析文章中线索并基于上下文推理,选出正确答案。相对以往的抽取类阅读理解,算法要求更高,被认为是“深度阅读理解”。

RACE数据集的难点在于:由于正确答案并没有直接使用文章中的话术来回答,不能直接从文中检索得到答案。必须从语义层面深入理解文章,才能准确回答问题。

解决方案

怎么让机器在庞大的题库文章中( 28000 个)找到正确的答案?

云从科技与上海交通大学首创了一种P、Q、与A之间的匹配机制,称为Dual Co-Matching Network(简称DCMN),并基于这种机制探索性的研究了P、Q、与A的各种组合下的匹配策略。

结果显示,采用PQ_A的匹配策略,即先将P与Q连接,然后与A匹配,策略都得到了更优的结果。

再将模型(基于PQ_A策略)与其他已知的模型、以及纯粹基于BERT自身的模型进行了比较,得到如下的结果:

从RACEleaderboard上结果比较可以得到以下结论:

l云从科技与上海交大的单体模型就已经超越榜单上所有的单体或Ensemble模型;

l云从科技与上海交大的Ensemble模型在高中题目(RACE-H)部分优于人类结果(Turkers)。

论文缘起

这篇论文的作者,来自中国人工智能“国家队”云从科技与上海交通大学。

云从科技孵化于中国科学院, 2017 年3月,承担国家“人工智能”基础项目——“人工智能基础资源公共服务平台”建设任务。

2018 年 10 月的国家“人工智能基础资源与公共服务平台”发布会上,云从科技创始人周曦提出了人工智能发展五个阶段,核心技术闭环是五个阶段的重要基础。

从感知到认知决策的一系列技术组成了核心技术闭环:

1-感知技术:人脸识别、语音识别、文字识别OCR、体态识别、跨镜追踪(ReID)、车辆识别等

2-认知决策:自然语言处理(NLP)、脑科学、大数据分析(风控、精准营销)等

目前,云从科技承担了国家发改委与工信部的人工智能基础平台、人工智能应用平台和人工智能的核心芯片平台项目,包含智能感知技术和认知决策技术为核心的技术闭环,并刷新多项世界纪录,保持自主核心技术国际领先。

在这个基础上,云从科技正在致力整合算力、智力、数据等资源及其成果,打造人工智能开放平台与生态,进一步促进人工智能在金融、安防、交通、零售、商业等重要行业的落地与深度融合。

附:论文解读

1.DCMN匹配机制

以P与Q之间的匹配为例,说明DCMN的匹配机制。下图为P与Q之间的DCMN匹配框架。

云从科技和上海交大使用目前NLP最新的研究成果BERT分别为P和Q中的每一个Token进行编码。基于BERT的编码,可以得到的编码是一个包含了P和Q中各自上下文信息的编码,而不是一个固定的静态编码,如上图中Hp与Hq;

其次,通过Attention的方式,实现P和Q的匹配。具体来讲,是构建P中的每一个Token在Q中的Attendances,即Question-Aware的Passage,如上图中Mp。这样得到的每一个P的Token编码,包含了与Question的匹配信息;

为了充分利用BERT带来的上下文信息,以及P与Q匹配后的信息,将P中每个Token的BERT编码Hp,与P中每个Token与Q匹配后的编码Mp进行融合,对Hp和Mp进行了元素减法及乘法操作,通过一个激活函数,得到了P与Q的最终融合表示,图中表示为Spq;

最后通过maxpooling操作得到Cpq,l维向量,用于最后的loss计算。

2.各种匹配策略研究

除了P与A之间的匹配之外,还可以有Q与A、P与Q之间的匹配,以及不同匹配得到的匹配向量间的组合,这些不同的匹配与组合构成了不同的匹配策略。对七种不同的匹配策略分别进行了试验,以找到更加合适的匹配策略,分别是:

[P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A;Q_A], [PQ_A], [P_QA], [PA_Q]

“PA”表示先将P和A连接为一个序列,再参与匹配,“PQ”与“QA”同理。符号“[; ]”表示将多种匹配的结果组合在一起。[P_Q; P_A; Q_A]模式下的模型架构如下图:

7 种不同策略通过试验,采用PQ_A的匹配策略,即先将P与Q连接,然后与A匹配,无论是在初中题目(RACE-M)、高中题目(RACE-H)还是整体(RACE),该策略都得到了更优的结果。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 揭秘云创兽:硬核科技背后的高效布局与核心实力

    文章介绍了中国企业在全球化浪潮下面临的语言障碍、文化差异等出海难题,重点展示了云创兽科技公司如何通过AI技术提供一站式出海解决方案。该公司以AIGC技术为核心,开发了涵盖内容生成、语言翻译、智能分发的全流程服务,已成功帮助HKIT等企业在微短剧出海领域获得巨大流量。其AI技术能实现高质量内容生产、精准语境翻译,并通过大数据分析实现个性化推荐。在广州跨境电商交易会上,云创兽的解决方案获得广泛关注。未来公司计划拓展更多行业应用场景,助力中小企业实现全球化发展。

  • 行业首个AI数字云仓项目获中物联科技进步一等奖,释放了什么信号?

    物流行业面临传统仓储效率低下、库存滞销率高等结构性矛盾。中国物流与采购联合会召开科技大会,聚焦数智供应链和AI+物流,其中日日顺的AI数字云仓项目获一等奖。该项目以AI算法为核心,打通全链路数据,实现库存资源共享与智能调度,有效解决库存积压和配送滞后问题。政策层面持续支持物流数智化转型,企业应用案例显示成本降低、效率提升。未来行业竞争将聚焦技术创新与全链路协同能力,物流正从"资源驱动"向"科技驱动"深度变革。

  • 极速、可靠、灵活|移动云以云硬盘为前沿技术落地提供有力支撑

    2025年4月,第十八届中国电子信息年会在成都成功召开。移动云举办“AI时代先进存力:构建新型数据存储前沿基础设施”论坛,聚焦AI大模型应用下数据存储、处理及算法框架的高要求。论坛探讨了存储技术、架构和安全创新,旨在推动存储技术发展,构建先进可靠的存力基石。移动云推出极速型云硬盘等产品,满足高IOPS、低延迟需求,并全面接入国产大模型DeepSeek,降低技术门槛,助力用户实现智能化升级。通过完善产品矩阵,满足多元业务场景需求,为千行百业数字化转型提供高质量存储保障。

  • 国内领先!移动云大云天元操作系统通过安全操作系统四级认证

    移动云自主研发的大云天元操作系统近日通过公安部网络安全专用产品安全检测,获得安全操作系统第四级认证。该系统凭借扎实的产品安全能力和完善的安全管理体系,成为国内首个通过该级别认证的国产操作系统。这一成果体现了其在安全领域的技术积累与行业地位,为保障客户数据安全和业务稳定运行提供可靠支撑,标志着国产操作系统安全能力达到国内领先水平。

  • 阿里云助力集思科技升级电商直播数字人——拓展AI直播市场边界,剑指万亿销售市场 | 看见新力量NO.144

    AI技术正加速渗透电商直播领域,奢侈品牌Burberry通过数字人主播实现618期间成交额同比增长超500%。集思科技推出的"实时替身"金牌主播2.0产品,突破非标品直播边界,实现视觉自然化+沟通智能化+内容协同化。阿里云通义千问3大模型为数字人提供精准语料支持,无影云电脑保障24小时稳定直播。未来AI销售将向"人货场"重构方向发展,数字人不仅能实现7×24小时直播,更将向一对一精准销售升级,打造万亿级市场新机遇。

  • 潜行创新:以中国智造护航世运会 泳池清洁黑科技获国际认可

    成都世运会期间,本土科技企业潜行创新研发的泳池清洁机器人,在成都体育学院游泳馆和简阳东来印象体育中心两大场馆出色完成赛事保障任务。该机器人以“轻便易用、高效稳定、深度清洁”的特点赢得各国参赛团队赞誉,并获央视等中外权威媒体聚焦,成为“中国智造服务国际体育”的典型案例。其搭载智能算法,清洁效率较人工提升数倍,还具备4K高清检测、机械臂拾取等创新功能,为赛事安全保驾护航。目前产品已远销全球百余国家,覆盖五星酒店、家庭泳池等多元场景,“中国智造”标签获国际广泛认可。

  • 东方“水哲学”照见万家烟火:凯度TVC以流动科技重构厨房温度

    当前厨电市场竞争激烈,品牌叙事陷入同质化困境。凯度新发布的TVC《漫》以东方哲学为灵感,通过“水”的意象构建独特品牌美学,突破传统参数竞争,强调科技与生活的融合。影片以“破界”“渗透”“升维”“归心”四个章节,展现柔性科技与人文关怀的结合,倡导“不争而利万物”的价值观,为高端品牌差异化发展提供新思路。

  • 宜享花以科技赋能消费金融,构建智能服务平台助力消费升级

    宜人金科旗下消费金融平台宜享花在数字时代背景下,通过AI、大数据等技术重塑消费金融服务模式。平台严格遵循网络安全法、数据安全法等法规,构建完善的数据安全治理机制,自主研发反欺诈系统,拦截欺诈借款超50万次。同时建立多层安全防护体系,保障用户信息安全。平台秉持“科技向善”理念,持续优化智能风控能力,为消费者提供更安全、普惠的金融服务体验。

  • 绿盟科技《车联网安全研究报告》发布

    绿盟科技发布《车联网安全研究报告》,指出随着智能网联、自动驾驶技术发展,汽车面临的安全威胁日益复杂。报告梳理近年典型安全事件,分析攻击手法,提出覆盖车端、路端与云端的防护体系。中国年销2000万辆汽车,车联网安全成产业关键挑战,需整车厂、供应链及行业管理者共同应对。

  • 天九老板云注册用户突破600万 持续领跑企服赛道

    第八届中国独角兽嘉年华暨天九共享集团34周年庆典在京举行。天九老板云平台注册用户突破600万,推出AI助手功能,依托自研“天星穹”大模型,升级为6.0版本。平台通过“线上+线下”模式,为企业提供商机对接、智慧服务等支持,致力于助力民营经济发展。未来将持续创新,赋能企业迈向智能新时代。

今日大家都在搜的词: