克里斯汀·罗伯森,职责是在机器学习方面培训谷歌内外的人员。
这也需要相当程度的耐心。罗伯森说:“机器学习模型不是静态代码,你需要不断为其提供数据。我们一直在不停地更新模型,而且还要不断学习,增加更多数据,调整预测方式等。它就像是一个有生命的东西,这是一种截然不同的开发模式。”迦南德里说:“实际上这是一个使用不同算法进行实验的学科,或关于哪个训练数据集在你的使用案例上工作效果最好的学科。”
尽管迦南德里已是搜索业务主管,但他仍然认为在内部传播机器学习技术的福音是他工作的一部分。他说:“计算机科学那部分不会有太大变化,但对数学和统计学的关注会更多,而对编写五十万行代码的关注则会减少。”就谷歌而言,这一障碍可以通过智能再培训克服。迪恩说:“在训练的一天结束时,这些模型中所使用的数学变得不再复杂。对于谷歌雇佣的大部分工程师而言,这都是可以实现的。”
为了进一步帮助日益增长的机器学习专家团队,谷歌开发了一系列强大的工具,在训练算法时选择正确的模型,以加快培训和提炼过程。其中最强大的是TensorFlow,它可以加速神经网络的构建过程。TensorFlow源自谷歌大脑项目,由迪恩和他的同事拉加特·芒格(Rajat
Monga)共同发明。它能把构建系统过程中涉及的晦涩难懂的细节变成标准化的内容,特别是在谷歌2015年11月开始将其开放给公众后,这种做法的效果更快得以显现。
前景广阔 应用无限
尽管谷歌煞费苦心地将传播人工智能技术的行为描述为利他主义行为,但它也承认:如果新一代程序员都能熟悉该公司内部的机器学习工具,那对谷歌未来的招聘活动带来莫大好处。尽管如此,TensorFlow的功能以及谷歌的开源模式很快受到了程序员的欢迎。迦南德里表示,当谷歌首次提供TensorFlow课程时,共有7.5万人报名参加。
但谷歌仍为自己的程序员保留了很多好东西。在公司内部,员工拥有无可比拟的机器学习工具——Tensor Processing
Unit(张量处理单元)。他们虽然使用这项创新已经很多年,但直到最近才对外宣布。张量处理单元是一种针对机器学习程序优化的芯片,就像GPU是专门针对图形处理优化的芯片一样。该公司的庞大数据中心里使用了数以千计的张量处理单元。通过赋予神经网络以超级计算能力,张量处理单元为谷歌带来了巨大优势。迪恩说:“如果没有它,我们无法推出RankBrain。”
但由于谷歌最需要的还是设计和完善这些系统的人才,就像正在紧锣密鼓地完善其软件训练工具一样,谷歌也在不断尝试各种方式来为工程师提供机器学习方面的培训。这些培训的规模大小不等,包括为期两天的速成班,使用幻灯片和实际操作练习。谷歌希望这只是初步尝试,工程师随后还会寻找更多资源来深入学习。迪恩说:“已经有数千人报名,准备参加下一次课程。”
谷歌还采取其他措施,为外部人才提供机器学习培训。今年初春,谷歌启动了Brain
Residency项目,利用谷歌大脑项目为有潜力的外部人才提供了为期一年的集训。罗伯森说:“我们称之为深度学习职业生涯的开端。”这次集训共有27名来自不同学科的机器学习学员,其中可能有些人会留在谷歌。但罗伯森表示,谷歌的目的是让他们自行发展,利用自己掌握的先进知识在世界各地传播谷歌的机器学习技术。
从某种意义上说,机器学习正在逐步走上中心舞台,谷歌希望以人工智能公司的身份继续占据主导地位,而霍尔盖特等人在忍者项目中学到的知识正是这一计划的核心。霍尔盖特的课程最初是为期4周的新兵训练营,由谷歌最先进的人工智能项目产品负责人提供指导,仔细教给他们如何将机器学习融入项目中。
罗伯森说:“我们把忍者带进会议室,考拉多站在白板前解释何为LSTM(长短期记忆,一种可以打造强大神经网络的技术)。他做着夸张的手势,讲述这种系统的工作原理,利用了哪些数学原理,如何应用于产品中。在最初的4个星期里,我们几乎用到了所有技术和所有工具,为的是给他们带来真正的沉浸式体验。”