机器翻译会不会成为下一波产业浪潮

本文作者:张春良博士,杭州雅拓网络技术有限公司市场总监,从事机器翻译研究及机器翻译产品研发10年。

大家是否记得科幻电影《星际迷航:企业号》里有这样的情景:星舰通讯指挥官佐藤星利用翻译器发明了linguacode矩阵,通过把翻译器集成到星舰人员佩戴的交流别针上或者植入耳朵里,说不同语言的人们就可以进行自由交流。其实,这样的设备展示的核心技术就是机器翻译(Machine Translation)技术。国外曾报道有一个人利用Google翻译游遍全世界,利用机器翻译工具与当地人进行交流,他还特意提到,在他生病住院时,他是如何利用该翻译工具与医生交流开展治疗的。

据统计,世界上大约存在6000多种语言,《圣经》中巴别塔的故事为我们提供过这样一种解释:上帝不想让人类成功建造能够通天的巴别塔,所以把人们分散到世界各地,让人们说不同语言,造成大家无法自由交流。如果想重建巴别塔,让使用如此众多语言的人们之间跨越语言的隔阂,机器翻译技术将会是解决问题的关键。

一提机器翻译,大家比较熟悉的是Google翻译和百度翻译等基于互联网公有云模式提供的在线翻译服务。在2013年谷歌I/O大会上,谷歌翻译团队中负责前端产品和移动技术的Josh Estelle曾提到,谷歌翻译每天为全球两亿多个用户提供服务,每天翻译次数达十亿次,每天翻译处理的文字数量,相当于一百万册图书,超过了全世界的专业翻译人员一年能够翻译的文字规模,其中92%的翻译需求来自于美国以外的地区。此外,据百度内部的统计,目前在线翻译贡献了超过5%的用户访问流量。

有人称机器翻译是自然语言处理领域的皇冠明珠。实际上,机器翻译历史与计算机的发展历史差不多悠久。1949年美国洛克菲勒基金会自然科学部门的负责人Warren Weaver发表了一份以《翻译》为题的备忘录,标志着开启了机器翻译研究的历史性一页。特别是最近十多年,统计机器翻译技术快速兴起,通过从大量的双语数据中自动学习翻译知识,一套翻译系统可以在三五天甚至一天内训练完成。因此,以统计机器翻译技术为核心的翻译产品越来越受到工业界的青睐。从翻译性能来看,与通过其它技术构建的翻译系统相比,统计机器翻译系统的性能更优。

随着科技和社会经济的快速发展,全世界的互联互通已经成为不可阻挡的发展趋势,首当其冲的便是正在不断深化的跨语言信息连通,我们正在以前所未有的速度从单语世界(国内)转向多语世界(国际化)。小到出国旅游翻译或者技术资料翻译,大到基于互联网的在线电商、旅游、外贸活动、O2O、租车、金融等服务的国际化市场推广,一个无法避免的痛点在于面临多语种语言翻译问题。网络上的海量和动态变化的多语言信息,如何通过低成本和快速的翻译实现有效交流?基于人工翻译来解决这个难题是不可想象的,唯一的解决方法就是充分利用机器翻译技术提供智能自动翻译服务。

近十几年来,在各国政府和产业界的大力支持下,机器翻译研究和产业化取得了快速进展。美国政府早在2009年就把自动翻译列为最具影响力的未来十大技术之一;中国政府也把包括机器翻译技术在内的自然语言理解研究列入到国家中长期科技发展规划纲要中。也正是看到机器翻译所蕴含的巨大产业价值,各大互联网公司都在积极进行机器翻译技术和产品的研发。

笔者曾与多位搞专业翻译的朋友以机器翻译的应用为话题做交流,五年以前得到的反馈基本上都是“唱衰”机器翻译的负面观点,认为机器翻译根本无法与人工翻译相提并论。但近两年,翻译界,尤其是翻译公司,对机器翻译的评价发生很大的积极变化,逐渐开始接受机器翻译具有可用性的结论,甚至还有相当一部分人害怕机器翻译,担心丢饭碗。从当前机器翻译技术的成熟度来判断,在可预见的将来,机器翻译还不可能完全代替人工翻译,但代替一些水平较低的翻译新手已经成为可能。实际上,如果针对某个特定领域构建一套专业的机器翻译系统,那么它会具有很好的可用性,能够为国内近四万家翻译服务企业和400万专业译员提供非常好的辅助翻译帮助。

在实时语音翻译方面,谷歌、百度等互联网巨头利用语音识别/合成和机器翻译技术开发了手机版的语音翻译APP。只要携带安装该APP的手机,就可以在不同语言间进行自由交流,这种工具特别适合于普通大众出国旅游之用,真正实现“一机在手,走遍全球”。微软在2014年5月的Code Conference上也演示了Skype实时翻译技术演示中,微软副总裁帕尔通过Skype利用实时翻译技术与微软的另一位员工进行了对话,前者使用英语,后者使用德语,演示内容显示,Skype顺利完成了两者对话时的实时翻译。

2014年的“双十一”购物狂欢节,在阿里巴巴平台上,全球总共有217个国家和地区参与了这次抢购。不只是阿里系,做“跨境电商”让“买卖遍全球”已经成为所有电商的共识。利用机器翻译技术解决买方、卖方以及电商平台提供方的跨语言沟通问题,eBay已经走在了前列。据科技博客网站TechCrunch报道,eBay已经在2013年开拓俄罗斯市场的时候尝试了机器翻译。俄罗斯用户输入俄语搜索关键字的时候,也能返回与关键字匹配、用英语描述的商品。国内的阿里巴巴也有自己的机器翻译研究团队,已经研制出了英语和俄语、英语和葡萄牙语之间的多套机器翻译系统。机器翻译技术也可以在电商服务的其它方面有所作为,比如将多国语机器翻译云平台与基于互联网在线服务的人工客服系统连接在一起,就可以提供多语言智能自动翻译服务,帮助客服人员与国外客户进行友好交流。

如果将翻译云平台与聊天平台相结合,就可以实现来自不同国家的朋友们进行基于文本/语音/视频的友好交流,可为社交平台、网游平台等提供语言沟通服务,比如目前微信就正在提供汉英、汉德等21种语言间的机器翻译服务。今天智能设备产业化非常火,与集成语音识别/合成的穿戴式设备和智慧芯片类似,集成机器翻译技术的穿戴式设备和智慧芯片,随着4G通信技术的成熟,相信将来也有很酷的想象空间。

此外,在当前火爆兴起的在线教育市场上,包括Mooc在内的各种大型开放式网络课程平台受到了数千万学习者的热捧,但是,对于一个只懂中文的学习者,如何能够通过在线教育平台聆听来自Harvard教授的真知灼见?通过机器翻译技术,我们可以把全球最优质的教学资源分享给全球数以亿计的学习者,让每个人超越语言的隔阂,真正都拥有平等的、最好的教育机会。

另外值得重点一提的,我国是统一的多民族国家,语种多,文种多。民族语文工作是巩固社会主义民族关系和开展民族工作的重要内容,开发面向少数民族语言的多语言智能翻译系统,可以进一步推进少数民族语文在双语教学、成人扫盲、新闻出版、互联网等领域的运用,对国家稳定和促进民族地区经济建设、政治建设、文化建设和社会建设,具有深远的意义,为此国家正在给予大量的人力和资金支持。

在以上提到的各种机器翻译应用中,最核心的部分是多国语机器翻译云平台的构建。最简单的解决方案是基于互联网公有云模式提供在线翻译服务,如Google翻译、bing翻译和百度翻译。通过使用在线翻译API进行二次开发,可以基本满足机器翻译的大众化使用和要求较低的企业级应用,但前提是翻译访问量不能太大(很多API的翻译请求次数有限制),对翻译结果要求不能过高(上述系统为通用领域翻译,不支持个性化定制服务)。还有一个最大的实际问题,就是数据翻译安全性问题,这是包括很多国际化企业、政府部门以及国家安全情报部门非常关注的问题。如果翻译需求量很大,而且数据翻译需要的安全级别很高,那么比较好的解决方案是通过本地构建多国语机器翻译私有云平台,帮助用户突破这些限制。为此,很多对此有需求的公司自己组建翻译团队利用开源系统如Moses和NiuTrans来搭建机器翻译私有云平台;对于其它企业用户来说,SDL的企业级翻译服务器和NiuTrans Server都能够提供专业化的多国语机器翻译私有云服务。

综上所述,我们有充分的理由相信,在单语世界到多语世界的发展潮流中,机器翻译技术正在改变人们的工作和生活方式。也许三五年之后,如今在很多人眼中仍属于“高大上”的机器翻译会走下神坛,不断融入大家的日常生活中,造福社会,机器翻译产业必将带来新的一轮产业浪潮。