首页 >> 通信新闻 >> 滚动新闻 >> 正文
 
Google翻译:凭啥跨越语言障碍
http://www.cww.net.cn   2011年3月29日 15:40    计算机世界    
作 者:许磊

出国旅游不懂当地语言怎么办?没有问题,只要你的手机上装有Google(谷歌)翻译工具,你对着它说句中文,它就能立刻翻译成当地语言,并直接“念”出来。

Google翻译这款产品诞生至今,一直在坚持创新,从网页版到工具栏,再发展到今天移动版,虚拟键盘、可选择翻译、朗读等功能也相继推出。“Google希望支持用户多样化的输入和输出,以便更加轻松地跨越语言的障碍。”近日,Google翻译研发经理陈雍昇在位于北京清华科技园的Google北京办公室接受了《计算机世界》的专访,为我们揭开了Google翻译背后的技术面纱及其所承载的Google整体产品战略的重要使命。

懂得更多 全凭云统计

2004年,Google创始人之一塞吉·布林(Sergey Brin)使用市面上的网络翻译服务来翻译韩国粉丝的邮件,结果显示:“生鱼片带着它的愿望,用Google搜索绿洋葱!”。这一与原意风马牛不相及的翻译结果使塞吉下定决心要使Google做出靠谱的翻译产品。

如今,Google翻译早已是很多人出国旅行和外文写作的必备工具,而Google也成为世界上最大的在线翻译服务提供商,实现了跨语言搜索信息,并可将搜索结果和网页等资讯以母语传递给用户。目前,全世界超过1000万人使用的语言约100种,而Google翻译已经实现了对其中58种语言的支持。“虽然机器翻译并不完美,但它可以让非母语用户接触到之前无法触及的世界各地的信息。”

“值得注意的是,Google翻译是个自动翻译机,也就是说,它借助的是技术而非人力。” 陈雍昇指出,当下大部分的商业翻译系统都属于规则法机器翻译,需要做大量词汇与语法的工作。不同于它们,Google翻译是先往计算机内输入大量的文字文本,涵盖目标语言的文本和对应翻译文本中现有的人工翻译数据,然后构建统计翻译模型。

每年,Google都会从一些政府部门、学术机构搜集翻译信息,完善自己的平行语料库,所谓的平行语料就是两种语言的对应词组或者句子,比如,“long”的平行语料是“长”、“time”的平行语料是“时间”,但词组“long time”的平行语料却不能只是两个单词的拼接,而是“很久”,句子“I have been here for a long time.”的平行语料则是“我已经在这里很长一段时间。”而为了保证翻译质量,除了严格限制平行语料的来源,Google还采用了国际认定标准Bleu Score来分析、调试平行语料的质量。

在采访中,陈雍昇特别指出,Google翻译之所以采用统计翻译模型一个重要原因就是Google的云计算架构。机器翻译需要海量的数据存储空间以及高效的运算能力,而Google拥有GoogleMapReduce(分布式计算系统) 和BigTable(分布式存储系统)正好满足了这两方面需求。

所以从表面上看,支持的语言种类多和必须在线使用是Google在功能上与市面上同样流行金山词霸、有道词典等翻译工具的功能区别,但背后最大的不同却是,Google在云计算支撑下的统计翻译模型。

整合信息  人人皆受益

“整合全球信息,使人人皆可访问并从中受益,这是Google的始终秉持的信条,也是它的产品战略”,陈雍昇表示Google翻译虽然并不是Google最大的研发部门,但它与Android、Chrome甚至Youtube一样,都是为Google实现整合全球信息的目标服务的。

Google希望将分散在全球各地的,所有可以数字化的,不同语言、不同格式、不同类型、不同版本的信息,进行分析处理后,以最简便的方式提供给用户使用,无论这些内容是来自某个地区的方言、书本或多媒体的内容,或是地图等基本的生活信息。这也可以解释为什么每次技术论坛上,Google都会在翻译这款产品上大费唇舌,因为它代表了一种理想化的沟通形态,即全球信息的无障碍流通。

[1]  [2]  
相关新闻
编 辑:赵宇    联系电话:010-67110006-864
分享到新浪微博 分享到搜狐微博 分享到腾讯微博 分享到网易微博 分享到139说客 分享到校内人人网 分享到开心网 分享到豆瓣 分享到QQ书签       收藏   打印  进入论坛   推荐给朋友
关键字搜索:Google  
文章评论查看评论()
昵称:  验证码:
 
重要新闻
通信技术
企业黄页
会议活动