AlphaGo之父:还没发现它的上限

【写在前面】

连下三局后,AlphaGo与韩国棋手李世石的对决已毫无悬念。这样的比赛注定会成为人工智能(AI)的又一个里程碑。为此,3月12日最新刊发的《经济学人》杂志刊发了题为《人工智能和围棋一决胜负》的长文。

不同于1997年深蓝对弈的国际象棋,AlphaGo对弈的围棋更加复杂,每下一步后能产生的可能性也更多。但AlphaGo背后的算法在比赛中已经显示出自己的优势。通过深度学习,它已经能模拟人类下棋,拥有“直觉”,并能给出下一步的最佳策略选择。

对于商界和学术界而言,AlphaGo背后的深度学习更值得期待。《经济学人》指出,深度学习是未来通用人工智能必不可少的部分。目前已经有众多公司在这一领域投入资金和经历。

作为AlphaGo之父,Deepmind的创始人之一Demis Hassabis被问到AlphaGo的能力是否有上限时,Hassabis说他不知道:“如果有,我们也还未发现。”

《经济学人》指出,结合了策略网络和价值网络的深度学习,已经构成了人类棋手需要通过几年实践才能累积的围棋智慧。未来,我们可以期待深度学习在人脸识别、语音识别甚至是医疗领域的应用。

以下为《经济学人》最新文章的全文翻译:

这次争夺荣誉的战场在韩国首尔的一个棋盘上。韩国对围棋的热爱程度绝不亚于它的邻国,那个被称为最疯狂热爱围棋的国家——日本。让许多认为围棋是他们自己的日本人懊恼的是,这项运动最好的玩家(过去十年)普遍被认为是韩国的李世石。但这可能马上就要改变了。李世石正在与AlphaGo进行5场系列赛的对决。AlphaGo是由伦敦DeepMind公司开发的电脑程序,2014年被Google收购。虽然这次不是官方的冠军系列赛,但比分牌显示,李世石早已输掉了比赛。

AlphaGo之父:还没发现它的上限

围棋是一种古老的游戏,相传是中国秦始皇为指导他儿子发明的。围棋在东亚非地区非常流行,就像国际象棋在西方的位置一样。同时,围棋在计算机科学家当中也非常流行。尤其是对于人工智能研究人员,对打败围棋棋手一直有着一种迷

恋。人类在其他棋类比赛中,已经被机器打败。最著名的应该是1997年,历史上最优秀的国际象棋大师卡斯帕罗夫输给了“深蓝”。深蓝的表现比人类更好,但和围棋比起来,教电脑学会国际象棋简直就是轻而易举。

乍一看,这样说有点奇怪。围棋的规则简单,有限。棋分黑白,执黑子棋手先下。选手轮流放置棋子到19*19网格棋盘交叉点上。最终目的是使用棋子来圈地盘。在李世石和AlphaGo对弈的规则中,每个棋子,或者说每个被围着的交叉点,都决定最终分数。被对方棋子围着的棋子要被提走。可以重复出现提走和反提的情况(这种情况被称为“劫”),但棋手不允许立即反提对方的棋子,他必须先在别处下一棋子。直到其中一个人认输,游戏结束。

复杂多样的围棋

但是这种简洁是充满欺骗性的。在一个真实的简单游戏中,比如画圈打叉游戏,到游戏结束,每个可能的步数都是可以计算出来的。这意味着电脑可以计算出在某种特定情况下的最优下法。这种方法曾解决的最复杂游戏是国际跳棋,它大约有10^20(1000亿*10亿)次不同的下法。在2007年,经过18年的努力,研究者称他们找出了最佳战略。

但是国际跳棋的棋盘只有8*8个格子。而围棋棋盘的尺寸意味着这个游戏可走的数目是非常巨大的:粗略的估计为10^170。这么大的数字已无法通过类比来描述。它大概是我们可见宇宙中所有原子总和(大概在10^80的数量级)的100倍那么多。在围棋数百回合中,任一回合大约有250种下法,也被称为分支因子。因为选择其中任一种下法又将会出现250种可能的下法,以此往复直到游戏结束。就像DeepMind的创始人Demis Hassabis所说的,这意味着围棋是无法采取数学意义上的暴力算法。

而且这个游戏的难度不仅仅如此。虽然国际象棋的棋盘要小一些,规则也相对严格,大约只有10^47种不同的玩法,而且它的分支因子仅为35。但实际上,这也意味着对国际象棋的处理无法像国际跳棋那样。而代替的方法是,国际象棋程序会随着比赛的发展,选择看起来更有希望的步数,从而过滤掉其他选项,然后计算机能通过计算,模拟选择步数中衍生出来的成千上万个步数。这种方法是可行的,因为国际象棋有一些固定范式来帮助程序理解一个步数的好坏。例如,骑士通常比兵要有价值;皇后比任何棋子都有价值。(它们的标准价值分别为:3、1和9)。