Google翻译,梦想与现实的距离有多远

2011-11-09 19:37 稿源:月光博客  0条评论

在信息纷繁如大洋般浩浩的互联网时代,操持各自语言的人们汇聚网络,言之纷纷,书之不息,各类信息无时不发,无处不在……不论是经典著述、长篇大论,抑或巧思短文、灵感的火花……似乎,互联网承载和传播了这个星球上人类的所有智慧。然而,一个简单的事实让信息携带智慧流通全球还依然只是一个梦想——即:不同语言之间无法直接沟通。为解决这个问题,机器翻译随科技的发展应运而生,并不断发展。

前面的废话

曾经有一个梦想——希望能轻松读懂英文,至少在看一篇没有太多文学色彩的技术文章时,可以明白个八九不离十。

也曾经不自量力——在借助机器翻译求学外文失败之后,试图研究机器翻译应当如何进行……

世界发展真快,失望、怅然与自知无能为力的几年虚度,曾经的渴望和若有所研的心得早已抛诸天外。直至几年前,Google 推出了翻译服务,经初步试用,如果要求不高的话,感觉翻译效果也算是不错!(注:不能用专业的人工翻译和机器自动翻译比质量)。免费使用,及时快速,在信息飞速流动的互联网时代,有这样的免费服务已经很知足了。(其实很想说一声谢谢!)

机器翻译的质量

一个显而易见的前提是,机器翻译不可能与人工翻译相比。在目前的技术条件下,一般认为机器翻译如果有 60% 以上的准确率就基本可用了。目前机器翻译已经发展到“基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性”(摘自维基百科“机器翻译”词条)。从对 Google 翻译服务的试用来看,其对简单短句、短语、以及习惯用语的翻译都还不错,翻译包含了对句法词序的转换处理。

那么,现阶段我们是否可以期待计算机对普通长句也有比较好的翻译效果呢?

简单的答案是:No!

复杂一点的答案也许是:我们可以有这样的期望吗?

或许,我们可以有这样的期望。但我们需要作出一些付出!请细想一下,我们通常所见的那长长的句子,它是否可以被分解为多个短句呢?如果短句与短句之间有语法上的主次关系,它们是否可以被包装成一个父级的简单句呢(即视短句仅为一个占位单元)?如果答案是肯定的,那长句就可以拆解封装成简单句的组合了(可能有多层)。

这是无意中尝试的一个例子,请看:

原文:“为什么计算机合成语音多数是女声。”

Google 译成英文:“Why do the majority of female computer synthesized speech.”

用该译文译回中文:“为什么大多数女性电脑合成语音。”

一正一反两次互译,含义已经相去甚远了。但我们尝试一下分解策略:

中文分解 Google 译文

-------------------------------------------------

1. 计算机合成语音 Computer-synthesized voice

2. 女 声 Female voice // 注:原译为 Girl,应是个 Bug,中间空一格即可

3. 多数 Most

4. 为什么 X 是 Y Why X is Y // X 和 Y 是占位符,此处是取其语法翻译

组合后译文:“Why is ”

去掉尖括号:“Why Computer-synthesized voice Most is Female voice.”

用该译文译回中文:“为什么电脑合成的声音大多是女性的声音。”

效果如何! 有种惊艳的感觉吧?

再来一句试试:

原文:“互联网以英文为主是不争的事实,”

Google 译成英文:“Internet in English is an indisputable fact,”

用该译文译回中文:“在英国的互联网是一个不争的事实,”

中文分解 Google 译文

-------------------------------------------------

1. 互联网 Internet

2. 英文 English

3. XX 以 YY 为主 XX to YY-based

4. XX 是不争的事实 XX is an indisputable fact

组合得译文:“Internet to English-based is an indisputable fact,”

用该译文译回中文:“以英语为主的互联网是一个不争的事实,”

与直接回译的差别是不是有点大,与原文的意思是不是基本符合?

相关文章

相关热点

查看更多