首页 > 动态 > 关键词 > 谷歌翻译最新资讯 > 正文

硬核测评,谷歌翻译被碾压!全球首个翻译引擎进化归来,“细节狂魔”搞定方言文言文

2020-04-01 13:51 · 稿源:大数据文摘公众号

声明:本文来自于微信公众号大数据文摘(ID:BigDataDigest),作者:刘俊寰,授权站长之家转载发布。

最近,一款在线机器翻译软件在日本大火。

这款翻译软件名叫DeepL,大火的原因正是因为它工作太负责了,翻译得太过准确,在日本引起了热议。

从日本网友的民间测评来看,不仅日语方言翻译效果杠杠的,连文言文也被拿下,要知道,这可是谷歌翻译都无法做到的事。

但是有多精确呢?作为一个严谨的科技软件,当然还是要用数据来说话,DeepL官方也公开了日英互译和中英互译的盲测结果,如下图所示,可以看出,DeepL简直就是碾压级的存在嘛:

盲测就是在专业译员评审们不知道哪个翻译版本是由哪个网站翻译的情况下,对翻译文本进行评估,这也一直是DeepL的测试方式之一。

DeepL由于极好的准确性,也同样引爆了Reddit,有网友指出,DeepL不是像谷歌翻译那样从字词上进行翻译,从Textractor的设置上可以看到,DeepL还支持用以前的翻译作为上下文对翻译结果进行改善

也有不少网友直呼“DeepL牛逼”!

3 年前,DeepL刚出现在大众视野的时候就已经吸引到了不少目光,DeepL首席执行官Gereon Frahling曾表示,DeepL的目标不止于翻译任务,神经网络将从理解文本开始,开启更多可能。

至于更多可能是如何被开发出来的,文摘菌做了一次小小的测评,然后再一起来围观DeepL的发家史,小板凳已经放好,欢迎就坐~

方言、文言文、学术论文,机器翻译神仙打架!

不管是民间测评还是DeepL官方的盲测结果,都暗示着DeepL可能是目前准确率最高的机器翻译,到底成色怎样,还是要亲自动手试试才知道。

既然本次更新也包含了简体中文,抱着一点点的怀疑和一点点的好奇,文摘菌也对DeepL进行了一次简单的测评,和目前主流的谷歌翻译、微软翻译、百度翻译、有道翻译进行了比较

本次测评分为三轮,第一轮方言,第二轮文言文,第三轮学术论文。好,现在我们有请五位选手入场。

第一轮,我们来看看方言。

大家都知道,中国方言文化博大精深,要是不能正确译出方言,那这个准确率还是要打上问号的。

我们选择了东北话十级题目:“我嘞个去,你长得也太磕碜了”。本题有两个得分点,一个是“我嘞个去”,一个是“磕碜”。让我们来看看五位选手的表现。

在第一个得分点上,谷歌翻译成了“I'll go there”,微软和百度认为这是“I'll go”的意思,有道则给出“I don't know”的答案,DeepL表现很好,正确翻译成了带有惊讶语气的“oh my god”。

在第二个得分点上,五位选手都给出了不同的答案,谷歌“shy”、微软“snobful”、百度“shabby”、有道“bad”,DeepL“ugly”。

从得分点上看,百度在第二题表现尚可,有道…勉强过关吧,谷歌和微软则全军覆没。我们来欣赏一下DeepL的满分试卷

这才第一题,不要担心,还有翻身的机会。接下来我们来看看文言文,既然DeepL都能翻译古日文,要是不能翻译古汉语可就不对了。

第二轮,文言文。

文言文部分我们以著名唐代诗人张九龄《望月远怀》中的名句“海上生明月,天涯共此时”为考题,这句诗的意思是,在辽阔无边的大海上升起一轮明月,使人想起了远在天涯海角的亲友,他此时此刻也该是望着同一轮明月吧。

本题的得分点是看看各位选手能否用英文把整句诗的意境表达出来。好了,中文版的标准答案已经公布,那么五位选手的表现如何呢?

首先从句意上看,谷歌、微软和百度都直接放弃了后半句的翻译,有道把后半句译成“Tianya at this time”;在前半句的翻译上,微软和百度都用到了born这个词,但是微软的译文是“The sea is born”????

我们来看看DeepL,前半句和谷歌的答案一模一样,但是后半句的翻译是不是达到了信达雅的水平文摘菌不知道,但是读上去感觉非常舒服,大家也来品品

第三题,也是最后一道压轴题,我们要考察的是各位选手对学术论文的中英互译。

学术论文的关键除了语句通顺外,还需要在专业词汇上做到准确,这也是本次考察的重点。

中译英部分,我们选择的是去年刊登在《国际新闻界》上的一篇文章,研究者调查的是社交媒体信任对隐私风险感知和自我表露的影响。

原文:实证结果显示:1.隐私风险感知与自我表露并无显著相关性;2.社交媒体信任负向影响用户的隐私风险感知,网络人际信任在其中发挥中介作用;3.社交媒体信任正向影响用户的自我表露,网络人际信任在其中发挥中介作用。

从翻译结果上看,五位选手给出的答案都比较让人满意,句型和语法也都没有问题,只是在一些具体的用词上各有千秋。比如,“自我表露”,DeepL和微软用的是“self-expression”,其余三位选手用的是“self-disclosure”;而“网络人际信任”,有道、百度和微软译成“network interpersonal trust”,谷歌给出“online interpersonal trust”的答案,DeepL则译为“cyber-interpersonal trust”。

照例,我们还是来看看DeepL的答案。

在英译中部分,我们选择了上周文摘菌报道的帝国理工大学论文的导论部分。在用户体验上文摘菌要插播一下,从中译英切换到英译中的时候,只有百度、有道和DeepL做到了自动识别,谷歌和微软仍需要手动选择语言。

原文:The global impact of COVID-19 has been profound, and the public health threat it represents is the most serious seen in a respiratory virus since the 1918 H1N1 influenza pandemic. Here we present the results of epidemiological modelling which has informed policymaking in the UK and other countries in recent weeks. In the absence of a COVID-19 vaccine, we assess the potential role of a number of public health measures – so-called non-pharmaceutical interventions (NPIs) – aimed at reducing contact rates in the population and thereby reducing transmission of the virus. In the results presented here, we apply a previously published microsimulation model to two countries: the UK (Great Britain specifically) and the US. We conclude that the effectiveness of any one intervention in isolation is likely to be limited, requiring multiple interventions to be combined to have a substantial impact on transmission.

从结果上看,五位选手的学术造诣都比较高,学术语言使用的规范性也都相差不大。但是,细节见真知,只有有道保留了双破折号的使用,但这在中文中其实并不常见;除有道外,其他三位选手在“非药物干预措施(NPI)”的表达上都没有做到尽善尽美。

仍然,笑到最后的还是DeepL,虽然还存在各种小问题,无法得到满分,但也是一张妥妥的高分试卷了:

以上就是本次测评全部的考题了,可以看出DeepL不愧是头号种子选手,不管是方言、文言文还是学术话语,都有不错的表现,看来DeepL官方还是很诚实的嘛。

从Linguee蜕变,机器学习赋能DeepL

见识到了DeepL的“独秀”表现,接下来,我们就重点介绍一下本次测评表现最佳的头号种子DeepL。

不知道DeepL?那Linguee应该听说过吧,就是那个运营十多年的在线外语词典,DeepL的前身正是Linguee。Linguee是一款出现多年的翻译工具,尽管使用广泛,也有一批忠实用户,但其翻译质量尚无法与谷歌翻译相提并论,尤其是考虑到后者品牌和地位的巨大优势。

真正重要的是Linguee的技术积累,Linguee的联合创始人Gereon Frahling之前就在谷歌研究院工作, 2007 年,他选择开启新的征程,团队数年来一直致力于机器翻译,直到 2016 年,他们才开始全力开发全新的系统,建设新公司,也就是DeepL。

Linguee的核心竞争优势就是爬虫和机器学习系统,前者能够抓取互联网上超过 10 亿句翻译结果和查询的大型数据库,后者在网页上搜索相似片段的真实翻译方法并对其评估,两者结合使Linguee成为了当时“世界上首个翻译搜索引擎”

十年积累下来,Linguee无论在数据和对算法的研究上都不可小觑,而这也直接成为DeepL的绝对优势,为团队训练新模型打好了坚实的基础。

DeepL变革性的神经架构在冰岛的一台超级计算机上运行,该计算机能力为5.1 petaFLOPS(每秒 5100 万亿次操作)不到一秒内能翻译 100 万单词。“冰岛可再生能源丰富,因此我们可以在这里用非常低廉的成本训练我们的神经网络。我们将继续专注于高性能硬件”,DeepL的CTO Jaroslaw Kutylowski说。

“我们的神经网络架构已经实现了多个显著改善”,Gereon Frahling表示,“通过用不同的方式安排神经元及其连接,我们的网络比目前其他神经网络更全面地映射自然语言。

大学、研究机构和Linguee的竞争对手发布的研究进展表明,卷积神经网络才是机器翻译的正确道路,而非DeepL之前使用的循环神经网络,但现在不是探讨二者区别的时候,对于相关词语的长、复杂字符串,只要你能够控制其弱点,卷积神经网络效果会更好。

例如,CNN一次处理一个单词,当句末单词决定句首单词的形成时,这就成了问题。查找整个句子寻找句首单词,如果网络获取到的第一个单词是错误的,就太浪费了,还得使用该知识重新开始,因此DeepL和机器学习领域的其他机构在CNN转向下一个单词或词组时,使用能够监控此类潜在问题的“注意力机制”来解决。

DeepL在最新版本增加了对日语和中文(简体)的支持,包括日语汉字,平假名和片假名以及数千个汉字。目前,DeepL支持的语言数量增加到 11 种,虽然语言支持不如其他翻译服务广泛,如Google Translate和Bing Microsoft Translator均支持一百多种不同的语言,但翻译精度也是不可忽视的关键点。

掌握多国语言的Techcrunch编辑Frederic曾这么评价DeepL:“谷歌翻译的风格非常直接,但却错过了一些细节和习语(或者把这些习语翻译错了),而 DeepL 经常可以提供更加自然的翻译效果,就像训练有素的人类翻译一样。”

说了这么多,还是那句话,真真假假还是自己试了才知道,有兴趣的同学可以亲自动手试试,要是遇到什么好玩的翻译结果还记得告诉文摘菌噢~

最后,官网链接双手奉上:

https://www.deepl.com/translator

  • 相关推荐
  • 大家在看
  • 雷军半夜学英语求如何翻译 网友:又要出新单曲了?

    今日凌晨,雷军微博发了一条“Just beat it”,求教如何翻译,引发热议。来感受下:“Just beat it”来自于迈克尔·杰克逊的《Beat It》,有网友调侃:“暗

  • 日本研发出智能口罩:可翻译8种语言

    由于新冠疫情,口罩已经成为了一种日常用品。而日本似乎十分热衷于研究不同类型的口罩,例如为了应对夏季的“冰镇口罩”和带微型电扇的口罩,还有为了女性美观研发的“小脸美口罩

  • 打字加翻译?科大讯飞智能鼠标实力超强!

    近日,科大讯飞智能随身翻译器、能力风暴教育机器人等智能科技产品在市场上风生水起, 尤其一款智能鼠标深受大家的喜爱,更多人喜欢的原因,是因为其有舒适细腻的手感、合适的大小,非常的实用。 颜值更高更先进这款鼠标的外观设计极具科技感,采用了全新的外壳设计,质感十足, 据了解,科大讯飞智能鼠标是在传统鼠标基础上,全新升级了先进的交互方式,拥有语音输入、语音翻译、语音控制等AI功能,更加符合年轻消费者的需要,进?

  • 谷歌推出首款基于机器学习的古埃及象形文字翻译工具Fabricius

    【TechWeb】7月15日消息,今天,谷歌艺术与文化今天推出了全球首个基于机器学习的埃及象形文字的数字翻译工具Fabricius。不管是普通人还是学者都能利用这个工具体验象形文字,或者助力学术 研究。据谷歌介绍,这个工具推出选在今天,是因为今天是罗塞塔石碑(Rosetta Stone)的出土纪念日,罗塞塔石碑的发现首次解开了古埃及象形文字之谜。使用Fabricius来读懂古埃及象形文字方法非常简单。你可以通过六个简单步骤来“学习”古埃?

  • 谷歌推出首款基于机器学习的古埃及象形文字翻译工具 Fabricius

    ​谷歌艺术与文化今天推出了全球首个基于机器学习的埃及象形文字的数字翻译工具 Fabricius。不管是普通人还是学者都能利用这个工具体验象形文字。谷歌介绍,Fabricius 中包含了首个基于机器学习解码埃及象形文字的开源数字工具,以此更好的支持和推动古代语言研究领域的发展。

  • R1SE集体发火星文 火星文是怎么意思翻译转换结果答案

    R1SE集体发火星文。​R1SE全员用火星文写下自己对团王诞生夜决赛的迎战与期望,这波非主流回忆杀将R1SE可爱又沙雕的气息瞬间拉满提前预祝R1SE在团王诞生夜总决赛中取得好成绩!

  • MT国际机器翻译大赛结果流出 微信AI在中英方向拔得头筹

    【TechWeb】7月7日消息,近日,WMT2020国际机器翻译大赛的榜单停止提交结果并发布排名,其中腾讯微信AI团队在“中文-英文”翻译任务上夺得冠军。WMT是机器翻译领域的国际顶级评测比赛之一,自2006年创办至今,WMT已经成功举办15届。大赛每年都吸引了众多来自全球的企业、科研机构和高校所组成的顶尖团队,包括微软、Facebook、百度、金山、日本情报通信研究机构(NICT)。在赛制上,组委会根据中英、英中、中日等不同翻译任务提供

  • 魔兽世界wcl怎么用 小白wcl全翻译中文超详细使用指南

    相信不少玩魔兽世界的玩家都听说过WCL数据分析网站,可以分析整个公会攻略boss的详细数据,能帮助公会团队有巨大的提升,但是由于很多是英文还有一些设计不好的地方,导致上手比较难,下面就来为大家分享一下wcl最新超详细使用指南。

  • Memsource翻译软件,助力企业实现高质量的游戏本土化

    基于全球一体化,越来越多的游戏被发行到世界的另一个地方,已经是一件很普遍的事情。在这其中,作为输入和输出过程中必不可少的工序,游戏本土化就显得极为关键。但因为各个国家与地区在风土人情、习俗、语言等方面的差异,游戏厂商在出海发展时需要面对的本地化调整要求往往不会低,而Memsource翻译软件,正是可以协助这些游戏本地化公司实现高质量游戏本土化的“好帮手”。对于一款游戏来说,其文本内容承载并直接影响玩家对于?

  • 149元 小米小爱鼠标正式开售:支持语音输入文字 实时翻译

    6月22日,小米发布了旗下首款智能鼠标——小米小爱鼠标,此前在小米商城众筹获得3.8万人支持,共筹资263万元。今天,这款鼠标正式开售了,售价149元。其最大特色就是内置小爱同学,

  • 打响智能语音技术绝地反击战,科大讯飞翻译机用实力来证明

    几乎每一个人都是从小学的地理课上了解到这个世界上,除了中国以外还有200多个国家和地区,很多人从那时起便立志要环游世界,但是等到长大以后,环游世界并不是一件容易的事,除了充裕的资金支持以外,语言这一关也是非常棘手的。不过,随着科大讯飞翻译机的面市,语言关从此不会成为束缚人们出国旅游的重要屏障了。AI降噪拾音准翻译语种多科大讯飞翻译机3.0采用高通骁龙八核高速处理器,第二代四麦克风降噪方案,前后双扬声器设计

  • 头条、抖音后,谁是字节跳动的新引擎?

    TikTok海外遇阻,全球化失利。作为字节跳动流量和营收支柱,头条和抖音已经或即将碰到天花板。字节跳动疯狂布局游戏、在线教育、电商三大赛道,这里能长出新增长引擎吗?

  • 深度对话:巨量引擎不想只卖广告

    “我们想深入到生意的链条中去。其中,会有无数新可能。”巨量引擎营销副总裁陈都烨这样说。今天,今日头条、抖音、西瓜视频等大热的平台,其广告业务都集中于巨量引擎之上。媒体的报道显示,巨量引擎在 2019 年拿下了超过 1000 亿人民币的广告收入,站在中国广告市场的前列。

  • 巨量引擎《动见》:数说直播营销

    商务部数据显示,今年一季度我国电商直播超过400万场,电商直播平台、短视频直播平台的直播场次呈爆炸式增长态势。虽然电商直播并不能代表直播营销的全貌,但它的繁荣足以证明直播商业的重心。6月30日,巨量引擎提供高层次营销洞察与深度研究成果的官方智库平台《动见》正式上线,以“营销的后直播时代”为主题,带来更多关于直播营销的思考。消费者在直播间里看什么根据《2020抖音直播数据图谱》显示,目前在直播间里,80后人均观

  • 巨量引擎《动见》:直播带货热潮下的冷静思考

    现阶段,直播带货在中国成为一个热潮。课堂上,很多EMBA学员也会提出相关的问题:直播带货到底是为了带货,还是为了营销?会成为一种主流趋势么?企业是否应该加入直播带货大潮?如何进行直播带货? 6 月 30 日,巨量引擎官方智库平台《动见》正式上线,以“营销的后直播时代”为主题,带来更多关于直播营销的思考。如今,商品、直播者、消费者构成了直播带货的三大主体。而消费者的规模、直播者的能力、消费者和商品的契合度,是?

  • 巨量引擎公布抖音广告创意指数CEI

    巨量引擎正式发布抖音广告创意指数CEI(Creativity Evaluation Index)与《2019- 2020 年度抖音广告创意观察报告》。创意指数CEI分为两个模型:适合全域广告,但更加适合品牌广告的为“创意精彩指数”,适合效果广告的为“创意效果指数”。每个维度的分数越高则代表该视频在此方面的创意能力越强。

  • 字节跳动收购容器平台才云科技 后者团队将加入火山引擎

    7月30日消息,据悉,字节跳动将于近日完成对容器平台才云科技( Caicloud )的全资收购,收购完成后,才云科技的团队及业务,将加入字节跳动火山引擎。成立于2015年的才云科技,初始定位是提供 Docker+Kubernetes 管理平台的 PaaS 服务。目前,才云科技主要产品包括智能容器云平台 Caicloud Compass 、AI 中台 Caicloud Clever 以及端到端智能解决方案。商业模式主要是以私有云和混合云形式向客户提供基于容器架构的产品

  • 蓝光地产发动人才驱动引擎,稳固企业长远发展

    作为人员流动性较大的行业,地产人员流失一直是各大房企都面临的一个发展难题。但蓝光地产通过建立了人才驱动策略,不仅解决了自身的人员紧缺问题,也让蓝光地产培养出了一批优秀的发展人才。总结自身的人才培养历程,蓝光地产的经验主要是稳扎稳打四个字。在建立自身的人才培养策略前,蓝光地产对当前地产界人员频频跳槽的原因进行了总结,针对存在的收入低、发展空间小、平台不佳、管理混乱以及频繁加班的几大主要原因,对自身的

  • 家居行业的新引擎,斑马仓用数字化智启未来

    从线下到线上,向数字化转型,是一条打破传统营销模式的“破局之路”。2020 年已匆匆走完上半场,很多装企老板在年中回顾复盘时内心免不了感叹疫情太狠、生意太差、生存不易。突如其来的疫情让本应黄金时期的线下零售业陷入“至暗时刻”,线下零售门店几乎停摆。家装市场被按下暂停键,家居需求暂时被压抑,但不会消失,家装行业依旧在重压下前行。赚钱不易,但依然充满希望,装企老板缺少的是面对复杂经济环境的信心和突围的方法?

  • 字节跳动旗下巨量引擎宣布品牌升级 启用新logo

    ​今日,字节跳动旗下综合的数字化营销服务平台巨量引擎正式宣布品牌升级,并启用新logo。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签