http://www.sciencehuman.com 科学人 网站 2011-07-03
当你兴致勃勃地在互联网上找到自己想要的资料时,面对一堆堆不认识的单词或符号,会是怎样一种心情呢?
科技的发展会帮助我们解决这种尴尬。过去十年来,技术使机器翻译得到了革新,通过人工智能计算机,机器翻译的能力越来越强,利用软件浏览各种语言网站的梦想正在实现。眼下,新的研究还在不断涌现。最近,南加州大学的科学家们利用军事中的密码学,把翻译视为一种“解码”过程。科学家表示,这种技术不但能翻译各种语言,甚至能破译海豚音和“外星人语言”。
发展过程
近十年才有突破
“科学家从上世纪50年代就开始研究机器翻译,但长期以来这项研究并未取得大的突破。”南加州大学的计算机科学家凯文·奈特说,最早,他和他的同事采用计算机编码方式,让机器进行翻译,但效果很差,电脑完整翻译一页内容需要一年时间。
“早期的机器翻译,比较像字典,计算机仅进行一个字一个字的转换,加上一些简单的语法规则。”谷歌翻译研发经理陈雍昇说,上世纪80年代个人电脑开始普及之后,机器翻译的技术才开始有了突破,不仅语法处理变得更为复杂完善,统计式的机器翻译技术也初步被使用。
十年前,机器学习的翻译方式开始出现,这是一种人工智能,机器自己可以学习,可以像人学外语一样,逐渐掌握语言的规则模式。凯文此前的同事,南加州大学的首席科学家弗兰兹·奥切加盟了谷歌公司,令谷歌翻译上升到新的高度。现在,在网页上只要按一个谷歌翻译键,网页整段文本就会立刻变成需要的文字。
“谷歌翻译是往计算机内输入大量的文字文本,包括原语言的文本,以及对应目标语言人工翻译的文本,”陈雍昇说,这两种语言文本,称为“平行语料”,机器会对海量的文本进行学习,查找各种语言模式,通过统计计算得到认为最为准确的翻译结果。
“这就好像联合国开会时,机器坐在翻译员后面看翻译员怎么翻译,一边看,一边学习,看了比如一万遍后,机器就知道该怎么翻译了。”凯文说,他们实验室所做的主要研究也和谷歌翻译的类似。
翻译原理
“机器像猴子一样聪明”
机器在学习过程中也需要老师,此时人类可以告诉机器一些语法规则。比如,英语中介词放在句子后面,中文却在前头,中文说“我在美国工作”,英语则是“我工作在美国”;阿拉伯语更不同,不是“主谓宾”结构,而是“谓主宾”结构,更像是“工作我在美国”。一个人很难掌握好这些规律,但只要往计算机中输入这些规则后,翻译机器很快就明白了。
此外,一些词汇有很多词义,比如英语中的“bank”,可以指“河岸”,也可以指“银行”。在这种情况下,机器可以通过对上下文的查看做出判断,如果上下文中有“船”这个词,机器就会翻译成“河岸”,如果有“取款”这个词,机器就会翻译成“银行”。
凯文说,比较难的情况是遇到中文成语。给外国人讲一个成语往往得讲完一个故事,但是计算机遇到成语第一次可能比较麻烦,之后就不难了。另外一个难处是比较长的词汇,在一些语言如芬兰语中,往往有着超过16个字母的词语,这时,机器就必须对其进行拆分,然后再进行翻译。“机器像猴子一样,很聪明。”凯文说。
技术缺陷
“英译汉好过英译日”
机器翻译虽然已经和十年前大不一样了,但依然存在很多缺陷。
同一个系统的语言比如英语和法语,因规则相近,所以较好翻译,但不同的语言系统就难了。在凯文等同事的研究中,“英语翻西班牙语很棒,英语翻汉语还行,英语翻日语就很差。”凯文说,“这就像人一样,我在日本呆了三年,日语还是不行,但学了两年汉语后,感觉已经可以了。”
陈雍昇表示,机器翻译依托庞大的平行语料库,有时会遇到一种语言和另一种语言之间翻译语料不足的情况。陈雍昇说,还有很多的技术难度需要解决,比如同义词的判断,如旅“行”和银“行”的“行”字意义不同,再如分词的判断,如“如果”和“汽水不如果汁好喝”里的“如果”意思不同,另外,还有同样内容的文档进行段、句、词、字的对齐等,都是机器处理的技术挑战。
不过,正是因为机器有着自我学习的智慧,随着计算机技术的进步,机器翻译会变得越来越好。
新方法
可破解“外星人语言”
就像一个外语学习的人坐在一大堆外语教材和字典之前一样,机器学习的基础就是得有大海一样的文本材料供其学习。但是世界上有4000种语言,大部分语言是不常用的,没有那么多的文本,那怎么办?
同样是南加州大学的科学家,凯文的同事苏吉斯·拉维想到了一个新的办法。
6月19日至24日在美国俄勒冈举行的计算机语言学年会上,他提交了一种全新的机器翻译方法。
这种方法叫做“解码外语”,之所以叫“解码”,是因为他们把英语视为一种初始语言,需要翻译的外语类似一种加密后的高级文字,通过解码破译,把外语“破解”,变成英语。
在每种语言中,都会有一些常用词汇,比如汉语里的“这个”、“那个”,这些词汇出现的频率在各种语言中都是最多的;很多词汇,各种语言都可以互换,将其视为一种加密的词语;此外,还有少数词汇,其他语言中没有对应,研究者将这三种词汇列为不同的计算常数,统计比较其出现的频率,按照一定的算法进行转换,并通过不断调整,得出最佳的翻译结果。“通过这种破译方法,计算机就可以甩掉所有的文本资料,无需进行学习,也无需背负辞海,只要轻装上阵,像军事家一样,就可以把一种新的语言破译”。
拉维表示,这种翻译方法目前只能翻译一些短句或电影字幕,尚未运用到长句或片段翻译中,但是,它给机器翻译打开了一条新的思路,可以运用到任何一种语言中。因为不需要任何既有的文本为基础,这种翻译方法今后甚至可以对“外星人语言”或“海豚音”进行破译。
采写/本报记者 金煜
■ 翻译对比
原文:21世纪什么最宝贵?人才。
参考翻译:what is the most expensive commodity in 21st century? Talent。
谷歌翻译:What the 21st century the most valuable?Talent。
爱词霸翻译:The 21st century? What is the most important people。
雅虎翻译:The 21st century what is most precious? Talented person。
必应翻译:What do 21st century most valuable?Talent。
百度词典(有道翻译提供):What is the most precious in the 21st century? Talents。
原文:My love is like a red, red rose,that's newly sprung in June。
参考翻译:啊,我的爱人像一朵红红的玫瑰,在六月里苞放。
谷歌翻译:我的爱就像是一个红色的,红色的玫瑰,那是在六月份新涌现。
爱词霸翻译:我的爱是一样的一个红色,红玫瑰,的新弹在六月。
雅虎翻译:我的爱是像红色,红色rose,that在6月最近被反弹。
必应翻译:我的爱就像红色、红色 rose,that 新开在六月。
百度词典(有道翻译提供):我的爱就像鲜艳的红玫瑰,六月里迎风初放。
原文:夕暗迫る云の上,いつも一羽で飞んでいる
参考译文:暮色苍茫的云层上,一只悲沧的鹰孤独地翱翔。
谷歌翻译:在晚上关闭黑暗的运气,总有一个在恩戴飞的鸟。
必应翻译:晚上暗拉说,总是在羽毛飞了。
[新京报]