谷歌翻译将升级:实时听译并转文字

导语:《纽约时报》网络版周日刊文称,Skype近期开始测试英语和西班牙语之间的实时语音翻译,而谷歌也将对翻译应用进行升级。这表明,全球主要科技公司仍在继续尝试消除人们之间沟通的主要障碍,并已经取得了不错的成果。

以下为文章全文:

科技行业正在竭尽全力推翻阻碍全球之间相互交流的“巴别塔”。

上月,微软旗下视频通话服务Skype开始在英语和西班牙语用户之间测试实时翻译功能。预计不久之后,谷歌也将发布翻译应用的升级。谷歌翻译的文字版目前提供了90种语言的翻译,并且已经能对少数几种常用语言进行听译。在此次升级之后,这款应用能自动识别用户是否在讲某种常用语言,并将其自动转为文字。

这种将某一语言翻译为另一语言的技术可能效果并不是很好。在使用该服务时,用户需要佩戴头戴式耳机,而只有当说话者停下来静听对方正在说什么时,才能发挥最好的效果。整个体验就像是两名电话销售员在使用对讲机。

不过,在使用过程中,这样的抱怨将会被“奇迹”带来的震惊所取代。在几分钟时间里,我就习惯了这一流程,并与一名哥伦比亚人自由地讨论他在麦德林的妻子、孩子和生活。Skype最开始曾将麦德林听成了“Made A”,但随后做出了修正。双方沟通的最大障碍,即语言的差异,正在消失。

对语言的改进已经成为在线产品优化的关键一部分。这些服务利用了机器学习算法,使计算机不断检查结果,并做出相应的调整。这将使在线拼写检查变得更加可靠,同时使搜索、地图导航,以及其他在线服务越来越好。

我那位来自哥伦比亚的朋友塞巴斯蒂安·库伯罗斯(Sebastian Cuberros)在Skype上表示:“在你对话的过程中,程序在进行学习。目前,这已经很不错。”尽管语法并不完美,但你能知道对方在说的是什么意思。

目前,只有几千名用户在Skype上使用该功能,而这一功能将从他们身上进行学习。此外,还有近4万名用户正在等待尝试这一西班牙语和英语之间的翻译服务。即使仍处于开发早期,但这带来了许多的可能性,例如让美国和墨西哥的儿童共同参加社会学习课程,或是对生活在叙利亚的家庭进行实时访谈。

谷歌表示,其翻译应用已被安装在Android手机上超过1亿次,而其中大部分都将收到谷歌推送的升级。“每月,在所有平台上,我们的翻译服务拥有5亿活跃用户。”谷歌翻译工程主管迈克杜夫·休斯(Macduff Hughes)表示。由于全球80%至90%的网页都只采用约10种语言,因此翻译已成为了许多人进行学习的关键一部分。

谷歌Chrome浏览器已经提供了一项功能,将网页自动翻译为某种主要语言。Chrome浏览器的用户可以将一个英文页面直接转换为韩文等其他语言。此外,Gmail设置等页面支持在约140种语言之间切换。

用户可以将自己的电子邮件语言设置为克林贡语、海盗语和艾玛语等搞怪的语言。其他一些小众语言,例如切诺基语,并不是为了搞笑,而谷歌已实现了对这些语言的全面翻译。谷歌还将发布一款服务,在用户拿起手机对准国外街道上的标志时,就能在屏幕上看到实时的翻译结果。

微软的必应翻译引擎被用于了Twitter和Facebook。Facebook运营着全球最大的照片分享服务,涉及了多种语言。为此,该公司也在开发翻译服务。此外,Skype的数千名用户已注册排队,等待其他同步翻译服务的推出,这些翻译服务包括了汉语和俄语。

给“语料库”加入更多数据对某些语言来说非常重要,而对机器学习算法的优化也是如此。谷歌翻译最初的语料库数据来自人工翻译。谷歌近期开始支持哈萨克语,而一名政府官员近期在电视机上呼吁人们给予帮助。休斯表示:“人们有着非常强烈的呼声,要求我们将他们的语言纳入到服务中。”

不过,一些专家仍然担心,机器可能会深入学习语言的其他部分,例如声调和幽默感。与搜索关键词和Facebook“点赞”记录类似,这些信息是否会被广告主和司法部门所利用?

从事未来通信技术研究的Hypervoice Consortium联合创始人凯利·菲兹西蒙斯(Kelly Fitzsimmons)表示:“技术可能拥有魔力,但带来的威胁也真实存在。如果政权发生更替,而新政府不喜欢人们所说的话,那么这时语料库信息意味着什么?”

菲兹西蒙斯表示,目前,只有不到1%的用户愿意让他们的数据被记录。这可能是由于用户愿意帮助机器学习翻译,也可能发生在他们使用Siri等语音助手服务的过程中。她认为,个人用户将越来越擅长管理自己的个人隐私,而不是将隐私保护的责任都交给服务提供商。不过从目前来看,用户更看重便利性。

Skype这一项目的产品营销负责人奥利弗·冯塔纳(Olivier Fontana)表示,在检查翻译质量之前,会话已被分成了多个不同文件。他表示:“没有办法知道,什么人说过一些什么。美国国家安全局无法从中获得有用的信息。”

休斯则表示,谷歌对于语音记录非常谨慎。这部分是由于,随着语音等生物信息安全方式取代传统的密码,这可能会带来潜在的问题。除此之外,应当采取一些方式,让翻译语音与普通语音有所区别。例如,如果用户说汉语,那么可以采用一种女性的声音,使人们知道这是翻译的内容。