AlphaGo只是开头:深度解析谷歌人工智能计划

via MIT Technology Review

逸炫

打败了世界围棋冠军,这只是万里长征的第一步。

加了垫子的墙,昏黄的灯光,花样墙纸的天花板。这里一点也不像能做出改变世界的尖端发现。但在这些让人快要幽闭恐惧症的模拟走廊里,Demis Hassabis认为,他在为创造足以解决人性最大难题的软件铺设道路。

“我们的目标很大,”Hassabis说,他冷静稳健的风格让人无法想象他概念的大胆。他在谷歌DeepMind领导一只有200名计算机科学家和神经学家的团队,DeepMind就是在3月初打败了人类围棋大师的AlphaGo背后的位于伦敦的团队,创造了计算机历史上的里程碑。

但是,Hassabis说这只是万里长征的第一步,作为人工智能领域的阿波罗计划,目标“解决智能问题,然后用它解决其他所有问题。”如今判断智能软件的标准具体到了一个特定的任务——面部识别。Hassabis希望创造他所称的“综合智能”——像人类一样可以学会完成任何任务。他展望未来人工智能可以做各种事情,通过形成和测试科学假说推进医学发展,或者用轻巧灵活的机器人身体跳来跳去。

要实现这个目标,DeepMind的软件必须超越黑白分明、秩序井然的围棋世界。它需要掌握乱糟糟的真实世界——或者从一个昏暗的、像素化的模拟世界开始。DeepMind的模拟世界叫做Labyrinth,公司在用它让软件尝试非常复杂的任务,例如在迷宫中导航。这会推动DeepMind研究员钻研如何制造更智能的软件,推动软件学会面对更难的决策和问题。他们利用了之前AlphaGo以及DeepMind更早炫耀过的技能,DeepMind学会玩二十世纪八十年代的太空入侵者等复古Atari游戏,玩得比人类都好。但要成功,Hassabis必须想出办法,解决人工智能领域中一些年代已久的问题。

自我改善

39岁的Hassabis此生很多时间都在研究如何创造智能。当年象棋神童提早从高中毕业,开始了视频游戏职业生涯。后来他获得了神经科学的博士学位,发布了关于记忆与想象的影响广泛的论文。

Hassabis在2011年联合创建了DeepMind,将他所学的生物智能转化到机器。公司在2013年12月发布了学会Atari游戏的软件,在2014年初被谷歌收购,据报道金额达4亿英镑,当时超过六亿美元。DeepMind快速扩张,新增雇佣几十名研究人员,在顶尖机器学习和人工智能会议发表大量论文。今年一月,它宣布了AlphaGo的存在,以及AlphaGo在2015年12月打败了欧洲最强围棋玩家的消息。本月初,AlphaGo打败了世界围棋冠军李世石。

增强学习方法,是让机器学习软件学会更复杂任务的关键。

Atari游戏和围棋非常不同,但是DeepMind用同样的方法解决了他们,从动物的训练方式中获得灵感:驯兽师可以用奖励与惩罚教会动物新的招数。通过被称为“加强学习”的方法,软件被设计为可以探索新的环境,调整自己的行为,以获得某种虚拟奖励。

举个例子,DeepMind的Atari软件被设计为只能控制和看见游戏屏幕,具有增加分数的动机。几个小时的训练就可以让软件提着鞋带起身,打到人类专家。

AlphaGo结合了增强学习和其他元素,例如一个分析几千万个专业围棋玩家棋谱从而学会评估不同走法的系统,还有一个搜索机制来选择最佳走法。但是,让AlphaGo能够打败世界冠军的,是与自己练习几百万次的增强学习。

via MIT Technology Review

Hassabis认为,增强学习方法是让机器学习软件学会更复杂任务的关键,比软件现在能玩的要复杂得多,例如记录我们的话语、理解图片的内容。“我们不认为仅仅观察就足够智能,你还必须行动。”他说,“最终,这是唯一你可以理解世界的方法。”

DeepMind的三维环境Labyrinth,基于一个开源的第一人称射击游戏Quake,专门为验证该想法而设计。公司已经用它来让机器参与游戏,60秒内探索随机生成的迷宫,收集苹果或找到出口(可通往另一个随机生成的迷宫)可获得分数。未来的挑战可能要去更复杂的计划性——例如,懂得要是可以打开门。公司还会以其他方式测试软件,并在考虑挑战星际争霸和扑克牌。但是一段时期内,在Labyrinth里设置越来也难的挑战将会是主要的研究方式,Hassabis说,“接下来几年都够用了。”