Google能成为下一个世界围棋冠军吗?

而为了达到这一目的,AlphaGo系统将最先进的蒙特卡洛树状搜索技术与两个深层神经网络相结合,每个深层神经网络均包含许多层,每层又包含数以百万计的神经元一样的连接。

在AlphaGo两种不同的神经网络中,“策略网络(policynetwork)”的作用是预测下一步,并用来将搜索范围缩小至最有可能硬起的那些步骤。另一个神经网络“价值网络(valuenetwork)”则是用来减少搜索树的深度,每走一步估算一次获胜方,而不是搜索所有结束棋局的途径。

上述方法使得AlphaGo的搜索方式相比之前的方法更人性化。例如,深蓝采用强力方法搜索的棋子位置要比AlphaGo多数千倍。而AlphaGo则相反,它通过想象下完剩余棋局来对下一步进行预判,如此多次反复。在上述模拟游戏中,策略网络提出下一步的智能建议,而价值网络则对走过的每个位置进行评估。

具体而言,Google首先采用围棋专业棋手的3000万步下法对价值网络进行训练,直到该网络对人类下法预测准确率达到57%(AlphaGo之前的纪录是44%)。

但AlphaGo的目标是击败水平最高的人类棋手,而不仅仅是模仿他们。为了做到这一点,AlphaGo学会自己发现新策略,通过自身两个神经网络之间成千上万的对弈,采用被称为强化学习的试错法逐步进行改善。这种方法提高了策略网络的效率,以至于最原始的神经网络(即其中不包含任何树状搜索)可以击败最尖端、构建有巨大无比的搜索树的围棋软件。

这些策略网络又反过来对价值网络进行训练,采用的还是从自我对弈强化学习的方法。这些价值网络可以对围棋的任何位置进行评估并预测获胜方,而人们过去曾认为这个问题太过困难,根本无法实现。

实现上述所有设想的前提是,计算机要超级强大。Google称,这一过程大量使用了Google云平台,使得人工智能和机器学习研究人员得以随时灵活地获得计算、存储和联网能力。此外,采用数据流图形(如TensorFlow)、用于数值计算的开房源库使研究人员得以对多个CPU或GPU的深度学习算法的计算需求进行高效利用。

AlphaGo到底有多强大?为了回答这个问题,Google在AlphaGo和人工智能研究领域最前沿的其他顶级围棋软件如CrazyStone、Zen和Pachi之间进行了一次比赛。AlphaGo在总计495局中只输了一局,胜率是99.8%。

AlphaGo甚至在每局开局让对方四步的情况下对阵CrazyStone、Zen和Pachi,胜率分别达到了77%、86%和99%。

如果在今年3月的对战中,AlphaGo战胜李世石,是否意味着人工智能已经超过人类?

或许还不能如此断言。但新成立的非营利性组织OpenAI的AI研究者IlyaSutskever认为,从技术的角度说,这个研究对AI具有纪念碑式的贡献。

在棋类游戏之外,这场对决也将引发更多的思考——那些人们曾经以为人工智能不可能完成的脑力挑战,是否都将被一一打破?未来人类是否会被人工智能所取代?

登陆|注册欢迎登陆本站,认识更多朋友,获得更多精彩内容推荐!