首页 > 动态 > 关键词 > 创新工场最新资讯 > 正文

创新工场两篇论文入选ACL2020 中文分词和词性标注新模型性能创新高

2020-07-08 20:53 · 稿源:TechWeb.com.cn

【TechWeb】7月8日消息,全球自然语言处理领域(NLP)顶级学术会议 ACL 2020 今年在线举办,来自创新工场大湾区人工智能研究院的2篇论文入选,这两篇论文均聚焦中文分词领域。

这两篇论文分别是《Improving Chinese Word Segmentation with Wordhood Memory Networks》和《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》,由华盛顿大学博士研究生、创新工场实习生田元贺,创新工场大湾区人工智能研究院执行院长宋彦,创新工场科研合伙人张潼,创新工场CTO兼人工智能工程院执行院长王咏刚等人创作。

这两篇论文各自提出了“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”,将外部知识(信息)创造性融入分词及词性标注模型,有效剔除了分词“噪音”误导,大幅度提升了分词及词性标注效果,将该领域近年来广泛使用的数据集上的分数全部刷至新高。

今天,创新工场大湾区人工智能研究院执行院长宋彦向媒体分享了这两篇入选论文的研究内容。宋彦本人有超过15年的NLP领域的科研经验。

据宋彦介绍,中文分词和词性标注是中文自然语言处理的两个基本任务。近年来,随着预训练模型的提出,有一些人提出质疑是否还有必要进行中文分词的处理,对此我们提出了不同的意见,尤其考虑到词汇级别的信息依然是中文信息处理最重要的基础。一个例子就是,虽然BERT大行其道,但是在中文上基于全词覆盖 (whole word masking)的预训练模型比直接使用单字编码的效果更好。

而创新工场的这两篇文章用记忆神经网络的方式记录对分词结果有影响的 n元组,并引入对词性标注有影响的句法知识,将分词结果和自动获得的知识衔接起来,既发挥了神经网络的优势,也把知识的优势用上,实现了分词技术上小而有效的改进和突破。

“键-值记忆神经网络的中文分词模型” 刷新中文分词历史性能

宋彦介绍,通常而言,中文语言因其特殊性,在分词时面临着两个主要难点。

一是歧义问题,由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。例如,“部分居民生活水平”,其正确的切分应为“部分/居民/生活/水平”,但存在“分居”、“民生”等歧义词。“他从小学电脑技术”,正确的分词是:他/从小/学/电脑技术,但也存在“小学”这种歧义词。

二是未登录词问题。未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词,或者是人名。这类问题在跨领域分词任务中尤其明显。

对此,《Improving Chinese Word Segmentation with Wordhood Memory Networks》论文提出了基于键-值记忆神经网络的中文分词模型。

该模型利用n元组(即一个由连续n个字组成的序列,比如“居民”是一个2元组,“生活水平”是一个4元组)提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解。并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。

例如,在“部分居民生活水平”这句话中,到底有多少可能成为词的组块?单字可成词,如“民”;每两个字的组合可能成词,如“居民”;甚至四个字的组合也可能成词,例如“居民生活”。

把这些可能成词的组合全部找到以后,加入到该分词模型中。通过神经网络,学习哪些词对于最后完整表达句意的帮助更大,进而分配不同的权重。像“部分”、“居民”、“生活”、“水平”这些词都会被突出出来,但“分居”、“民生”这些词就会被降权处理,从而预测出正确的结果。

键-值记忆神经网络分词模型

在“他从小学电脑技术” 这句话中,对于有歧义的部分“从小学”(有“从/小学”和“从小/学”两种分法),该模型能够对“从小”和“学”分配更高的权重,而对错误的n元组——“小学”分配较低的权重。

为了检验该模型的分词效果,论文进行了严格的标准实验和跨领域实验。

实验结果显示,该模型在5个数据集(MSR、PKU、AS、CityU、CTB6)上的表现,刷新最好成绩(F值越高,性能越好)。

宋彦表示,与前人的模型进行比较发现,该模型在所有数据集上的表现均超过了之前的工作,“把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高。”

和前人工作的比较

在跨领域实验中,论文使用网络博客数据集(CTB7)测试。实验结果显示,在整体F值以及未登陆词的召回率上都有比较大提升。

基于双通道注意力机制的分词及词性标注模型“有效剔除噪音误导

第二篇论文《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》提供了一种基于双通道注意力机制的分词及词性标注模型。

宋彦介绍,中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中,给每一个词标注其所属的词类,例如动词、名词、代词、形容词。词性标注对后续的句子理解有重要的作用。

在词性标注中,歧义仍然是个老大难的问题。例如,对于“他要向全班同学报告书上的内容”中,“报告书”的正确的切分和标注应为“报告_VV/书_N”。但由于“报告书”本身也是一个常见词,一般的工具可能会将其标注为“报告书_NN”。

利用句法知识进行正确的词性标注

句法标注本身需要大量的时间和人力成本。在以往的标注工作中,使用外部自动工具获取句法知识是主流方法。在这种情况下,如果模型不能识别并正确处理带有杂音的句法知识,很可能会被不准确的句法知识误导,做出错误的预测。

例如,在句子“他马上功夫很好”中,“马”和“上”应该分开(正确的标注应为“马_NN/上_NN”)。但按照一般的句法知识,却可能得到不准确的切分及句法关系,如“马上”。

斯坦福大学的自动句法分析工具结果,分成了“马上”

针对这一问题,创新工场的论文提出了一个基于双通道注意力机制的分词及词性标注模型。

该模型将中文分词和词性标注视作联合任务,可一体化完成。模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献。

这样一来,那些不准确的,对模型预测贡献小的上下文特征和句法知识就能被识别出来,并被分配小的权重,从而避免模型被这些有噪音的信息误导。

基于“双通道注意力机制”的分词及词性标注

即便在自动获取的句法知识不准确的时候,该模型仍能有效识别并利用这种知识。例如,将前文有歧义、句法知识不准确的句子(“他马上功夫很好”),输入该双通道注意力模型后,便得到了正确的分词和词性标注结果。

分词及词性标注实例

为了测试该模型的性能,论文在一般领域和跨领域分别进行了实验。

一般领域实验结果显示,该模型在5个数据集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表现(F值)均超过前人的工作,也大幅度超过了斯坦福大学的 CoreNLP 工具,和伯克利大学的句法分析器。

即使是在与CTB词性标注规范不同的UD数据集中,该模型依然能吸收不同标注带来的知识,并使用这种知识,得到更好的效果。

该模型在所有数据集上均超过了之前的工作

CTB5(CTB5是使用最多的中文分词和词性标注的数据集)结果

而在跨领域的实验中,和斯坦福大学的 CoreNLP 工具相比,该模型也有近10个百分点的提升。

跨领域分词实验(对话测试集)的结果

宋彦总结道,“从技术创新的角度,我们的贡献主要有两点。一是在现有技术的基础上,建立了一个一体化的模型框架,使用非监督方法构建词表,并把知识(信息)融入进来,使用更高层次的句法知识,来帮助词性标注,起到'他山之石,可以攻玉’的效果。二是主动吸收和分辨不同的外部知识(信息)。通过键-值记忆神经网络和双通道注意力机制,进行动态权重的分配,能够有效分辨知识,区分哪些是有效的,哪些是无效的。虽然这些知识是自动获取的、不准确的,但‘三个臭皮匠,顶个诸葛亮’,经过有效利用,总能凑出一些有用的信息。如何实现模型的主动吸收和分辨,就变得更加重要。”

一直以来,创新工场致力于衔接科技创新和行业赋能,做嫁接科研和产业应用的桥梁,为行业改造业务流程、提升业务效率。对中文分词技术的研究也是如此。

在宋彦看来,中文分词和词性标注是最底层的应用,对于接下来的应用和任务处理非常重要。例如对于文本分类、情感分析,文本摘要、机器翻译等,分词都是不可或缺的基本“元件”。

“在工业场景使用的时候,跨领域的模型能力是一个非常直接的诉求。”宋彦强调。

宋彦以搜索引擎的广告系统为例向TechWeb介绍,论文提及的新模型可以有效地实现广告在不同领域进行内容匹配的冷启动。“以现有模型,比方说在新闻领域学到的模型,如果碰到一个体育领域的广告,那么这个时候其中很多词会没办法正确切分出来。但是在使用我们的模型时候,在新领域进行广告内容推荐,可以讲新领域的知识和事先准备的关键词等,加入我们的模型,从而把目标文本中一些比较有效的关键词,通过更好的分词结果呈现出来,而这些关键词,可能会匹配到用户输入的一些词,或者说用户在特定的网页浏览背景下面他所碰到的一些内容。所以如果分词结果正确,就能够有效的把这两部分内的内容衔接,使得用户在搜索的时候,得到的广告内容跟搜索结果是匹配的。”

目前,这两篇论文的工具都已经开源。

分词工具: https://github.com/SVAIGBA/WMSeg

分词及词性标注工具: https://github.com/SVAIGBA/TwASP

  • 相关推荐
  • 大家在看
  • 少样本学习新突破!创新奇智入选ECCV 2020 Oral论文

    近日,创新奇智有关少样本学习(Few-shotLearning)的研究论文《Prototype Rectification for Few-Shot Learning》被全球计算机视觉顶会ECCV2020接收为Oral论文,入选率仅2%。ECCV全称为European Conference on Computer Vision(欧洲计算机视觉国际会议),与ICCV和CVPR合称为全球计算机视觉三大顶级会议,每两年举办一次。据大会官方介绍,本届会议共收到5025份有效投稿,共接收1361篇,录取率为27%,其中1361篇接收论文里面,?

  • 消费2020:低价决定一切

    有意思的是,“10%”这个数字,是刘强东在 2012 年 8 月自己在微博喊话时提出来的:“京东大型家电三年内零毛利,所有大家电保证比国美苏宁连锁店便宜10%以上。”当时有京东股东表态,“我们除了钱什么都没有”。

  • 2020游戏发行大困局

    2020 年,游戏发行可真是太难了。找产品:难最近一段时间,几乎所有发行商都把「找产品」当成了最重要的事情。

  • 2020下半场,主流平台币OKB的创新与赋能

    7月2日,OKEx CEO Jay Hao返场谜渡主办的刀锋对话AMA,直播环节,OKEx CEO Jay Hao针对OKB的生态建设、OKChain创新理念等议题进行了解析和阐述。Daisy:2020年已经过半,无论对于哪个行业而言,都是很有挑战且危机重重的一年,币圈也经历了几次大波动。您怎么总结交易所上半年的得失?又怎么看接下来的行业趋势?Jay:2020年这场突如其来疫情,确实对全球化经济造成了比较大的影响,有人开玩笑说上半年啥也没干,光见证历史了。美?

  • 2020中国边缘计算20强

    今年以来,中共中央政治局常委会数次强调,加快5G网络、物联网等,新型基础设施建设进度。边缘计算是5G和物联网的关键技术之一,边缘计算可以将高带宽、低时延、本地化的业务下沉到网络边缘,解决时延过长、汇聚流量过大等问题,从而为实时性和带宽密集型业务提供良好支持。随着5G基础建设加快,边缘计算也吸引了前所未有的关注。边缘计算社区长期致力于推进边缘计算领域知识传播和生态发展建设。从 2019 年起每年年中发布 “边缘?

  • 2020“抖音看见音乐计划”启动

    “我还是曾经那个少年,没有一丝丝改变”是不是已经不自觉的开始跟唱了?这首火爆网络的歌曲《少年》最先开始火就是在抖音APP发布,作为很多视频的BGM被广大用户所熟悉。随着近年来短视频的火爆,也带动许多歌曲从抖音爆红全网。 近日,抖音举办抖音看见音乐计划线上发布会「看不见音乐会」,启动2020“抖音看见音乐计划”,也推出了长期的“抖音音乐人亿元补贴计划”,再一次提高对原创音乐及音乐人的扶持力度。抖音音乐负责人曹?

  • 坚持,陪伴,成长,2020年高考的三个关键词 | 作业帮2020高考故事

    2020 年 7 月 7 日, 1071 万高考考生将走上考场。这是时隔 17 年后,高考时间再次拨回 7 月。疫情之下,学校无法如期开课,高考被迫延期,常规的学习秩序被打破,这个被称为“史上最难”的 2020 年高考季,注定让每个身在其中的人无法忘怀。作为中国最大的K12 在线教育平台,作业帮有幸陪伴了其中 805 万考生,见证了他们的努力和成长。 2020 年 5 月 28 日,作业帮发起“ 2020 高考故事,‘帮’你记录”征集活动,面向全国考生、

  • 2020,微商如何成功转型为“播商”?

    6 月 10 日,“微商教母”张庭抖音首站带货2. 56 亿(官宣数字),刷新此前包括:罗永浩、陈赫等在内的所有明星、名人直播带货记录,也将微商这个被称之为国内“最成功的也最具商业效率”的组织重新拉了用户的视野。

  • 生意人的2020:我在抖音做直播

    和绝大多数在晚上 8 点左右“黄金时间段”开播的带货主播不同,王咏的直播时间一般都选在白天。

  • COMPUTEX 2020线下展览取消

    DoNews 6月12日消息(记者 刘文轩)台北国际电脑展COMPUTEX & InnoVEX 2020特展原本打算缩减规模并延期到今年9月举行。不过遗憾的是,主办方今天正式宣布完全取消今年的展览活动,并预告明年6月1日到6月5日再见。虽然通过线上举行的分享活动在过去一星期顺利举办,然而全球依然笼罩在新馆肺炎疫情的阴影下,各国采取相应的防疫措施和出入境限制,这些措施也导致一些参展商难以顺利抵达台湾参展,这也导致原本打算9月举办的特展不得

  • 2020初级会计考试时间 2020会计考试考务日程安排详细介绍

    据财政部网站消息, 2020 年度全国会计专业技术初级资格考试日期调整为 2020 年 8 月 29 日至 9 月 4 日, 9 月 9 日至 10 日,分两个阶段进行。会计中高级资格考试时间不变,中级仍于 2020 年 9 月 5 日至 7 日举行,共 3 批次,高级仍为 2020 年 9 月 6 日。具体考试时间↓↓

  • 视觉信息助力广告点击率预估--京东广告团队技术论文入围KDD2020

    在以AI技术为支持的推荐、搜索、广告等业务中,点击率预估(CTR)一直是技术攻坚的核心,同时也是AI技术在业务落地中最难实现的技术方向之一。近日,来自京东广告团队的一篇论文《Category-Specific CNN for Visual-aware CTR Prediction at JD.com》,即《在京东,视觉助力点击率预估——基于给定类目信息的卷积神经网络》被KDD2020 成功收录。论文构建了一种基于特定类目的卷积神经网络(Category-Specific CNN, CSCNN),该算法有?

  • 在快手,看见不一样的2020年高考

    在北京人大附中考点门口,除了口罩,红白相间的校服最为显眼。“加油啊!”“不要紧张!”“好好考!”伴随着阵阵加油声和殷切的目光,200 多名高三考生陆续进入考点。无需提供核酸检测,考生提供身份证和准考证便可进入考场,进场后红外线测温,37. 3 度以下即可正常参加考试。 (快手昵称:人民画报;ID:renminhuabao) 身着红色T恤,手举“乘风破浪”的加油牌,八一学校高三班主任一大早,就到人大附中考点前为自己的学生送考

  • 2020【抖音看见音乐计划】启动,让你的音乐被“看见”

    “我还是从前那个少年,没有一丝丝改变”,最近从抖音火遍全网的《少年》持续刷屏。在抖音,不论是正能量视频、舞蹈、少年吉他弹唱,还是从小到大的成长照片合集都配上了《少年》这首歌,据统计与之相关的投稿量已达 2300 万,播放量已经突破 183 亿,演唱者抖音音乐人梦然的抖音粉丝总量也增长至近 137 万。《少年》自上线抖音以来,掀起了全站创作的热潮。随着《少年-剪辑版》音频上线,网友引用音频进行的视频创作涵盖范围更加?

  • 企业主的2020:闯进直播,向阳而生

    相比电商平台庞大的商铺基数,短视频平台新商家入驻的增速或许更加亮眼一些。以抖音直播为例,从 2019 年末到今年 4 月,湖北地区有近 10 万户商家开通抖音企业号,截至目前,抖音企业号数量已经突破 300 万,且超过半数企业号均已开播。

  • 2020年如何购买比特币?

    6月21据外媒报道的消息称,自今年3月份市场中主要的加密货币和山寨币在一天内市值损失了50%后,加密货币市场一直处于复苏状态。在全球经济衰退的背景下,比特币和以太坊在六月份引领市场增长,比特币的市值近乎达到了3月市场暴跌前的水平。6月23日比特币开始想10000美元上方试探,试图打破一潭死水的横盘状态。现在全球经济被黑色笼罩着,比特币作为避险资产备受瞩目,很多散户开始把目光瞄向比特币,比特币钱包日使用量的最大涨幅

  • 2020年如何买比特币?

    比特币无疑是过去十年中表现最好的资产,从0. 001 美元(甚至更低)飙升至 20000 美元的历史高点。顶级评论员和企业家布兰登·基特姆说,比特币拥有的这种“影响力”本身就应该吸引投资者,因为它有上升的潜力。这并不是说过去的表现不能代表未来的结果,但很多人认为比特币很可能成为本世纪表现最好的资产之一。前对冲基金经理拉乌尔·帕尔(Raoul Pal)在 1 月份表示,从风险回报的角度来看,比特币“胜过一切”。 随着越来越多的主

  • 直播带货:2020年最大泡沫?

    ​过去十年,每一个风口的诞生都是由创业公司和VC推动,最后由巨头进场洗牌。但直播带货是个例外,它从一开始就是巨头布局。

  • 2020年我们应该如何购买比特币

    比特币,一个神奇的名字,一个颠覆了经济的币种,开启了虚拟货币的先河,那这个到底有多牛X呢,接下来给你揭晓。比特币,英文名Bitcoin,你把这英文名拆开就是两个词,bit和coin。这bit音标是[b?t],中文翻译就是比特,而且它还是英文二进制单位( binary unit)或二进制数字(binary digit)的缩写,没错它不是个英语单词。其次比特是表示信息的最小单位,是二进制数的一位包含的信息或2个选项中特别指定1个的需要信息量。一般来说,n

  • 2020年移动应用的设计新趋势你知道几点?

    ​最佳的移动应用设计是关于个性化的交流、友好的声音和直观的互动。换句话说,设计的目的就是不需要用户想太多,而是关注情感、动机和需求。你想要创造一种技术先进的产品来打动用户的心吗?那就不要错过这篇文章。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议

热文

  • 3 天
  • 7天