谷歌"机器学习忍者"计划:人工智能融入所有产品

去年11月发布的智能回复功能取得了巨大成功,Gmail

Inbox应用的用户现在可以直接从系统提供的三条备选内容中选择一条,轻轻碰触即可进行回复。由于系统提供的回复内容非常切题,用户经常感到不可思议。在通过该应用发送的回复信息中,有1/10都是由机器学习系统生成的。考拉多笑着说:“这个项目能够成功还是令我感到有些惊讶。”

小心求证 困难重重

在谷歌证明机器学习高效性的实例组成的稠密图(dense

graph)中,自动回复只是其中的一个数据点。但是当机器学习成为搜索业务的重要组成部分的时候,或许转折点才会最终到来。作为谷歌的旗舰产品,搜索几乎为该公司贡献了所有营收。在某种程度上说,搜索总是基于人工智能系统。但多年以来,由于搜索引擎对谷歌过于重要,所以始终没有融入机器学习算法。迦南德里说:“由于搜索在公司内部占据的份额巨大,高级管理者深度参与其中,所以很多人都怀疑我们无法真正取得进展。”

这部分阻力源自文化因素,因为谷歌强调要让那些有极强控制欲的程序员适应带有禅宗韵味的机器学习模式。长期掌管谷歌搜索业务的阿密特·辛格(Amit Singhal)曾是传奇计算机科学家杰拉德·萨尔顿(Gerald

Salton)的助手。萨尔顿在文档检索方面的开创性工作启迪辛格帮助谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry

Page)把研究生时期编写的代码,扩展成了可以适应当今网络时代的程序。

他从20世纪的方法中梳理出令人惊讶的结果,但如果要将机器学习系统整合到关系谷歌命脉的复杂系统中,他却持怀疑态度。大卫·帕布洛·科恩说:“进入谷歌的前两年,我在搜索质量部门工作,并尝试用机器学习来改进排名。结果证明:阿米特的团队是全世界最优秀的,我们把阿里特脑海中的所有内容都变成了硬编码,并不断取得进步,我们已经找不到超越他的方式。”

到2014年初,谷歌的机器学习大师们认为需要改变现状。迪恩说:“我们与排名团队展开了一系列讨论。我们认为至少应该尝试一下,看看是否有所收获。”他的团队所设想的那个实验,最终被证明对搜索至关重要:即文件排名与搜索请求的匹配程度有多高。迪恩称:“我们跟他们说,尝试用神经网络计算额外的分数,看看到底有没有用。”

结果显示这种方法确实有用。这套系统如今已经成为谷歌搜索的一部分,被称作RankBrain。它于2015年4月上线。谷歌继续秉持着以往的风格,对如何改进搜索讳莫如深。但迪恩表示,RankBrain“融入到每一个搜索请求中”,虽然未必会影响所有的排名,但的确对很多搜索请求的排名都产生了影响。另外,该系统效果显著。在谷歌计算排名时所使用的数百个信号中,RankBrain的使用排名第三。

迦南德里说:“我们成功利用机器学习改进了搜索结果,这对公司来说意义重大,也引发了很多人的关注。”华盛顿大学教授佩德罗·多明戈斯则则表示:“检索派与机器学习派始终都存在着分歧,机器学习派最终赢得了胜利。”

谷歌认知转换面临的新挑战是如何让所有工程师都熟悉机器学习——哪怕不擅长机器学习。这也是现在其它许多公司也在追求的目标,其中最引人关注的当属Facebook,该公司与谷歌一样执着于机器学习和深度学习。对这个领域的毕业生的竞争变得更激烈,而谷歌正在努力维持其对毕业生的吸引力。学术圈多年以来都流传着一个玩笑:即使不需要顶尖学生,谷歌也会招聘他们,避免人才被竞争对手抢走。

多明戈斯说:“我的学生无一例外都得到了谷歌的录用通知。”目前看来,竞争的激烈程度有增无减。就在上周,谷歌宣布将在苏黎世开设一个新的机器学习实验室,有很多工作岗位有待填补。但由于学术项目尚未培养大量机器学习专家,所以为员工提供在职培训面成为了必要措施。

但这却并非易事,尤其是对于谷歌这样的公司而言。这里有很多世界顶尖的工程师,他们毕生都在研究传统的编程方式。机器学习却需要截然不同的思维模式,人们之所以能变成编程大师,通常是因为他们实现了对编程系统的完全控制。机器学习还需要掌握一些数学和统计学知识,但是很多程序员却对此不屑一顾,即便是那些能够写出超长代码的超级黑客也不例外。