首页 > 动态 > 关键词 > 谷歌翻译最新资讯 > 正文

硬核测评,谷歌翻译被碾压!全球首个翻译引擎进化归来,“细节狂魔”搞定方言文言文

2020-04-01 13:51 · 稿源:大数据文摘公众号

声明:本文来自于微信公众号大数据文摘(ID:BigDataDigest),作者:刘俊寰,授权站长之家转载发布。

最近,一款在线机器翻译软件在日本大火。

这款翻译软件名叫DeepL,大火的原因正是因为它工作太负责了,翻译得太过准确,在日本引起了热议。

从日本网友的民间测评来看,不仅日语方言翻译效果杠杠的,连文言文也被拿下,要知道,这可是谷歌翻译都无法做到的事。

但是有多精确呢?作为一个严谨的科技软件,当然还是要用数据来说话,DeepL官方也公开了日英互译和中英互译的盲测结果,如下图所示,可以看出,DeepL简直就是碾压级的存在嘛:

盲测就是在专业译员评审们不知道哪个翻译版本是由哪个网站翻译的情况下,对翻译文本进行评估,这也一直是DeepL的测试方式之一。

DeepL由于极好的准确性,也同样引爆了Reddit,有网友指出,DeepL不是像谷歌翻译那样从字词上进行翻译,从Textractor的设置上可以看到,DeepL还支持用以前的翻译作为上下文对翻译结果进行改善

也有不少网友直呼“DeepL牛逼”!

3 年前,DeepL刚出现在大众视野的时候就已经吸引到了不少目光,DeepL首席执行官Gereon Frahling曾表示,DeepL的目标不止于翻译任务,神经网络将从理解文本开始,开启更多可能。

至于更多可能是如何被开发出来的,文摘菌做了一次小小的测评,然后再一起来围观DeepL的发家史,小板凳已经放好,欢迎就坐~

方言、文言文、学术论文,机器翻译神仙打架!

不管是民间测评还是DeepL官方的盲测结果,都暗示着DeepL可能是目前准确率最高的机器翻译,到底成色怎样,还是要亲自动手试试才知道。

既然本次更新也包含了简体中文,抱着一点点的怀疑和一点点的好奇,文摘菌也对DeepL进行了一次简单的测评,和目前主流的谷歌翻译、微软翻译、百度翻译、有道翻译进行了比较

本次测评分为三轮,第一轮方言,第二轮文言文,第三轮学术论文。好,现在我们有请五位选手入场。

第一轮,我们来看看方言。

大家都知道,中国方言文化博大精深,要是不能正确译出方言,那这个准确率还是要打上问号的。

我们选择了东北话十级题目:“我嘞个去,你长得也太磕碜了”。本题有两个得分点,一个是“我嘞个去”,一个是“磕碜”。让我们来看看五位选手的表现。

在第一个得分点上,谷歌翻译成了“I'll go there”,微软和百度认为这是“I'll go”的意思,有道则给出“I don't know”的答案,DeepL表现很好,正确翻译成了带有惊讶语气的“oh my god”。

在第二个得分点上,五位选手都给出了不同的答案,谷歌“shy”、微软“snobful”、百度“shabby”、有道“bad”,DeepL“ugly”。

从得分点上看,百度在第二题表现尚可,有道…勉强过关吧,谷歌和微软则全军覆没。我们来欣赏一下DeepL的满分试卷

这才第一题,不要担心,还有翻身的机会。接下来我们来看看文言文,既然DeepL都能翻译古日文,要是不能翻译古汉语可就不对了。

第二轮,文言文。

文言文部分我们以著名唐代诗人张九龄《望月远怀》中的名句“海上生明月,天涯共此时”为考题,这句诗的意思是,在辽阔无边的大海上升起一轮明月,使人想起了远在天涯海角的亲友,他此时此刻也该是望着同一轮明月吧。

本题的得分点是看看各位选手能否用英文把整句诗的意境表达出来。好了,中文版的标准答案已经公布,那么五位选手的表现如何呢?

首先从句意上看,谷歌、微软和百度都直接放弃了后半句的翻译,有道把后半句译成“Tianya at this time”;在前半句的翻译上,微软和百度都用到了born这个词,但是微软的译文是“The sea is born”????

我们来看看DeepL,前半句和谷歌的答案一模一样,但是后半句的翻译是不是达到了信达雅的水平文摘菌不知道,但是读上去感觉非常舒服,大家也来品品

第三题,也是最后一道压轴题,我们要考察的是各位选手对学术论文的中英互译。

学术论文的关键除了语句通顺外,还需要在专业词汇上做到准确,这也是本次考察的重点。

中译英部分,我们选择的是去年刊登在《国际新闻界》上的一篇文章,研究者调查的是社交媒体信任对隐私风险感知和自我表露的影响。

原文:实证结果显示:1.隐私风险感知与自我表露并无显著相关性;2.社交媒体信任负向影响用户的隐私风险感知,网络人际信任在其中发挥中介作用;3.社交媒体信任正向影响用户的自我表露,网络人际信任在其中发挥中介作用。

从翻译结果上看,五位选手给出的答案都比较让人满意,句型和语法也都没有问题,只是在一些具体的用词上各有千秋。比如,“自我表露”,DeepL和微软用的是“self-expression”,其余三位选手用的是“self-disclosure”;而“网络人际信任”,有道、百度和微软译成“network interpersonal trust”,谷歌给出“online interpersonal trust”的答案,DeepL则译为“cyber-interpersonal trust”。

照例,我们还是来看看DeepL的答案。

在英译中部分,我们选择了上周文摘菌报道的帝国理工大学论文的导论部分。在用户体验上文摘菌要插播一下,从中译英切换到英译中的时候,只有百度、有道和DeepL做到了自动识别,谷歌和微软仍需要手动选择语言。

原文:The global impact of COVID-19 has been profound, and the public health threat it represents is the most serious seen in a respiratory virus since the 1918 H1N1 influenza pandemic. Here we present the results of epidemiological modelling which has informed policymaking in the UK and other countries in recent weeks. In the absence of a COVID-19 vaccine, we assess the potential role of a number of public health measures – so-called non-pharmaceutical interventions (NPIs) – aimed at reducing contact rates in the population and thereby reducing transmission of the virus. In the results presented here, we apply a previously published microsimulation model to two countries: the UK (Great Britain specifically) and the US. We conclude that the effectiveness of any one intervention in isolation is likely to be limited, requiring multiple interventions to be combined to have a substantial impact on transmission.

从结果上看,五位选手的学术造诣都比较高,学术语言使用的规范性也都相差不大。但是,细节见真知,只有有道保留了双破折号的使用,但这在中文中其实并不常见;除有道外,其他三位选手在“非药物干预措施(NPI)”的表达上都没有做到尽善尽美。

仍然,笑到最后的还是DeepL,虽然还存在各种小问题,无法得到满分,但也是一张妥妥的高分试卷了:

以上就是本次测评全部的考题了,可以看出DeepL不愧是头号种子选手,不管是方言、文言文还是学术话语,都有不错的表现,看来DeepL官方还是很诚实的嘛。

从Linguee蜕变,机器学习赋能DeepL

见识到了DeepL的“独秀”表现,接下来,我们就重点介绍一下本次测评表现最佳的头号种子DeepL。

不知道DeepL?那Linguee应该听说过吧,就是那个运营十多年的在线外语词典,DeepL的前身正是Linguee。Linguee是一款出现多年的翻译工具,尽管使用广泛,也有一批忠实用户,但其翻译质量尚无法与谷歌翻译相提并论,尤其是考虑到后者品牌和地位的巨大优势。

真正重要的是Linguee的技术积累,Linguee的联合创始人Gereon Frahling之前就在谷歌研究院工作, 2007 年,他选择开启新的征程,团队数年来一直致力于机器翻译,直到 2016 年,他们才开始全力开发全新的系统,建设新公司,也就是DeepL。

Linguee的核心竞争优势就是爬虫和机器学习系统,前者能够抓取互联网上超过 10 亿句翻译结果和查询的大型数据库,后者在网页上搜索相似片段的真实翻译方法并对其评估,两者结合使Linguee成为了当时“世界上首个翻译搜索引擎”

十年积累下来,Linguee无论在数据和对算法的研究上都不可小觑,而这也直接成为DeepL的绝对优势,为团队训练新模型打好了坚实的基础。

DeepL变革性的神经架构在冰岛的一台超级计算机上运行,该计算机能力为5.1 petaFLOPS(每秒 5100 万亿次操作)不到一秒内能翻译 100 万单词。“冰岛可再生能源丰富,因此我们可以在这里用非常低廉的成本训练我们的神经网络。我们将继续专注于高性能硬件”,DeepL的CTO Jaroslaw Kutylowski说。

“我们的神经网络架构已经实现了多个显著改善”,Gereon Frahling表示,“通过用不同的方式安排神经元及其连接,我们的网络比目前其他神经网络更全面地映射自然语言。

大学、研究机构和Linguee的竞争对手发布的研究进展表明,卷积神经网络才是机器翻译的正确道路,而非DeepL之前使用的循环神经网络,但现在不是探讨二者区别的时候,对于相关词语的长、复杂字符串,只要你能够控制其弱点,卷积神经网络效果会更好。

例如,CNN一次处理一个单词,当句末单词决定句首单词的形成时,这就成了问题。查找整个句子寻找句首单词,如果网络获取到的第一个单词是错误的,就太浪费了,还得使用该知识重新开始,因此DeepL和机器学习领域的其他机构在CNN转向下一个单词或词组时,使用能够监控此类潜在问题的“注意力机制”来解决。

DeepL在最新版本增加了对日语和中文(简体)的支持,包括日语汉字,平假名和片假名以及数千个汉字。目前,DeepL支持的语言数量增加到 11 种,虽然语言支持不如其他翻译服务广泛,如Google Translate和Bing Microsoft Translator均支持一百多种不同的语言,但翻译精度也是不可忽视的关键点。

掌握多国语言的Techcrunch编辑Frederic曾这么评价DeepL:“谷歌翻译的风格非常直接,但却错过了一些细节和习语(或者把这些习语翻译错了),而 DeepL 经常可以提供更加自然的翻译效果,就像训练有素的人类翻译一样。”

说了这么多,还是那句话,真真假假还是自己试了才知道,有兴趣的同学可以亲自动手试试,要是遇到什么好玩的翻译结果还记得告诉文摘菌噢~

最后,官网链接双手奉上:

https://www.deepl.com/translator

  • 相关推荐
  • 大家在看
  • 录音+转写+翻译,搜狗录音笔S1一机多能

    基于对传统录音笔的认识,很多人对于录音笔的认识还停留在只是录音的阶段,入手搜狗录音笔SI之后,刷新了我对录音笔的认识。一机多能,不但可以超强录音,还可以转写及翻译,工作效率迅猛提升。下面就来分享一下个人使用搜狗录音笔S1 的神奇体验。硬朗的外观设计搜狗录音笔S1 的外观设计充满了科技感及商务感,S1 的边框部分采用了磨砂质感的铝合金材质,不仅富有质感且包裹性极强,增加了意外跌落时的保护性。机身正面配有一块3.

  • 泄露文件显示:iOS 14将为Safari内置翻译功能,并支持Apple Pencil

    根据泄露的iOS14 系统代码的显示,苹果正计划在iOS14 和iPadOS14 中为Safari添加一个内置的语言翻译功能和全面支持 Apple Pencil。

  • 外媒称iOS 14赤裸裸抄袭安卓:主屏幕小部件、画中画、翻译

    作为目前移动系统的两大强者,iOS和安卓越来越像,比如刚刚亮相的iOS 14,一些外媒就直言,苹果这是在赤裸裸的抄袭安卓,其还罗列了一些抄袭的细节。这次iOS 14的一大看点是,主屏幕提供了小部

  • 小米首款智能鼠标 能听会写会翻译 语音控制/搜索 众筹价129元

    【TechWeb】6月24日,小米众筹正式上线开售——小米小爱鼠标。内置小爱同学,标志小爱同学首次登陆电脑端,可以进行语音输入、 语音/划词翻译、小米智能家居控制、电脑控制、语音搜索等多种功能,让办公更便捷高效。 硬件配置也非常出众,4000DPI高精度传感器、金属四向滚轮和经典小爱语音键、抗菌材质壳体以及蓝牙5.0低功耗设计,内置750mAh可充电锂离子电池。用高于市场上200元的纯硬件配置加持智能功能,让人人都可以享受到科技

  • 搜狗翻译推出国内首个AI写作助手,开启外语学习智能化新篇章

    近日,搜狗翻译推出国内首个AI写作助手,通过借助先进的人工智能算法对英文作文进行实时语法和拼写纠错,并提供专业的语句润色优化建议,从“纠错”到“润色”,一站式解决英语写作常见难题。以AI写作助手为代表,搜狗翻译正不断探索高效的英语学习方式,推动外语学习智能化。高效提升英语写作能力,你我皆是写作黑马英语作为全球通用语言,在升学考试、学术研究、商务沟通及日常交流中都极为重要。中国英语学习者在学习过程中付?

  • 分析师认为苹果应该收购DuckDuckGo搜索引擎 以向谷歌施压

    伯恩斯坦公司(Bernstein)分析师Toni Sacconaghi在分享的一份研究报告中表示,苹果应该收购一家搜索引擎公司,向谷歌施加压力。

  • 谷歌前广告主管正在打造一款无广告的搜索引擎

    据外媒报道,Sridhar Ramaswamy于 2013 年成为谷歌广告和商务高级副总裁。他领导着这个价值 1150 亿美元的分支机构达五年之久,该机构负责通过AdSense在搜索、YouTube和网站上出现的广告。但因受够了谷歌的暴利和客户与广告商之间的利益冲突,Ramaswamy选择离开谷歌并创建了自己的搜索引擎。

  • 官抖直播,真能成为销售增长新引擎?

    当携程CEO梁建章、网易丁磊、格力董明珠纷纷走进直播间,并频传销量捷报;当寺库、妃鱼、唯品会为代表的电商平台选择扎根在抖音并开启高频直播,以寻求新流量渠道的获客和变现机会;

  • 记录“向往的小米生活”,巨量引擎如何让综艺IP效应最大化?

    当代年轻人的生活节奏越来越快,对娴静自得的生活状态总是持以特别的向往和期待。 5 月 8 日,《向往的生活》第四季正式上线,这个号召大家回归自然,放慢生活节奏的综艺节目自上线起即倡导不一样的生活方式,激起广大用户关注。作为此季的首席合作伙伴,小米 10 期望与“蘑菇屋”一起记录各种美好过往,更希望在拍摄场景中传递产品本身的优势功能。为了将IP效应最大化,小米联合巨量引擎,借助抖音和今日头条强大的内容传播影响力

  • 论道汽车效果广告,巨量引擎×金投赏炉边会开启“增效”密钥

    2020 年,汽车行业面临全新变局。存量市场竞争加剧,有效线索成本高企,投放预算进一步压缩,重重压力下,车企将营销关注点转向“效果”这个关键词上。效果广告在汽车行业仍是一个新概念,对比教育、快消等成熟行业还有着非常大的增长空间。“巨量引擎现在做效果广告营销是生意驱动型,希望真正帮助企业生意有成长,效能有增加。在汽车领域,不仅仅是帮助主机厂,也帮助主机厂的渠道、经销商们一起去提升生意能力。”在 6 月 12 日

  • VE视频引擎推出跨平台的视频剪辑解决方案

    据艾瑞、极数等咨询公司发布的中国短视频行业报告显示。国内的短视频用户数已达 8 亿之多,并且用户数还处在一个持续增长的过程中。在如此庞大的市场规模下,必然会产生海量的PGC(专家生产内容),UGC(用户生产内容)视频内容。PGC生产内容的方式需要专业的视频拍摄团队按照剧本拍摄,然后拍摄后的视频交付视频后期团队进行视频剪辑、视频包装。UGC生产内容是方式主要是用户拍摄一段生活场景视频。然后通过视频剪辑的APP去完成二次编

  • 斑马仓携手数字化改革,成为家装行业贴地起飞的强引擎

    互联网家装发展至今,早已褪去过去的狂热和追捧,进入到客观和理性的阶段。但是不论如何,互联网家装仅仅是一种获客的工具和手段,没有了用户和流量,互联网家装模式必然会遭遇困境,一切都是零。因此,我们必须要思考一种有别于互联网家装的进化新模式。其实,模式很简单,还是回归到家装行业本身,通过解决家装行业本身的痛点和难题,达到供给端的升级和改造,从而找到满足用户新需求的方式和方法。痛点可以总结为:1、准入门槛低,竞争白热化2

  • 字节跳动推出企业技术服务平台“火山引擎 ”

    6月22日消息,字节跳动企业技术服务平台“火山引擎”官网上线,字节跳动在企业服务领域的布局开始慢慢地揭开其神秘的面纱。据介绍,“火山引擎”是字节跳动旗下企业级智能技术服务平台,依托字节跳动的大数据、人工智能等技术能力,以及增长理念与方法论,为客户提供技术产品与解决方案。字节跳动火山引擎负责人肖默表示:字节跳动作为一家全球化互联网公司,在过去8年中迅速成长,在这一过程中,不断积累的技术能力、

  • 谷歌版后浪发布!谷歌CEO说每代人都会低估下一代

    6 月 8 日谷歌CEO桑达尔·皮查伊在YouTube在线毕业典礼上发表演讲时提到,每代人都会低估下一代人的潜力,下一代人或许也会对上一代人不耐烦。皮查伊鼓励毕业生保持开放心态、保持不耐烦、充满希望,才有机会改变一切。

  • 终于,数据中台成为3000万企业的增长引擎

    2018 年阿里、腾讯、美团、字节跳动等互联网巨头掀起的“中台热”,却在一年后风向突然飘忽。据报道,浙江省某大型传统制造企业,启动了代号为“奔月”的中台项目,总投资额 5000 万。结果项目在 2019 年底被集团叫停,CIO引咎辞职。诸如茅台的中台项目进展不顺利、联想的中台项目成效低等类似案例还有很多,行业甚至出现“中台,我信了你的邪”等唱衰声音。

  • 火起来、“红”下去 京东X王府井强强联手打造经济复苏新引擎

    六月京城最火的第一地标莫过于王府井和京东联手打造的“热爱”红一条街了。贯穿南北的王府井大街上,京东用热爱故事展、热爱艺术区以及布满步行街角角落落的热爱互动装置贯穿起了一份“热爱”的情愫,一个个鲜活的故事,一页页闪光的记忆,同构出无限正能量。与此同时,基于京东为王府井打造的线上线下一体化方案而成的“数字双街”系统也已全面开启,一路引领王府井线下经济复苏的新征程。京东X王府井“热爱”启程在京东X王府井步

  • 堪比专业医生 华米推出第二代心率引擎:准确度高达95%

    智能手环/手表等设备最重要的功能之一就是健康监测,现在越来越多的手环/手表支持了心率监测,今天华米在AI创新大会上宣布推出第二代心率引擎RealBeats 2,其中ECG心电图的精准度达到了94.76%,

  • 原作开发人员谈《暗黑2》重制版:用现代游戏引擎还原原作不可能

    对于不少老玩家老说,都非常期待《暗黑破坏神2》重制版,不过从目前的情况来看,暴雪在制作上还是很棘手的。据IGN报道称,《暗黑破坏神2》原作的两名开发人员“暗黑之父”Max Schae

  • 巨量引擎&北京大学联手举办的“未来营销官”项目圆满落幕!

    “用理论指导实践,再用实践验证和修正理论。”6月13日,巨量引擎与北京大学新闻与传播学院联手举办“未来营销官”2020北京大学智慧营销实战教学创新项目圆满落幕。巨量引擎与北大一起,基于课堂教学的规律和学生认知发展的顺序,循序渐进,为学生们提供系统的前沿知识课程培训,并开放旗下广告投放平台,为学生进行实战投放提供最佳助力,积极培养优质的数字人才,为品牌和行业输送新鲜思维,培养立足前沿的“未来营销官”。经过3

  • 百度回应腾讯告老干妈涉某搜索引擎:手里的瓜突然不香了

    7月1日,随着贵阳警方发布了腾讯与老干妈千万广告费纠纷案是因为3人伪造印章与腾讯签合同,也让这件事情真相大白。但网上传闻“腾讯状告老干妈拖欠广告费提及某搜索引擎”,对此百度官方回应称“手里的瓜突然就不香了”。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议