观看人机大战第二季的正确姿势:这些你得知道!

编者按:它真的又回来了,自从2016年完虐世界顶级棋手李世石之后,它似乎一直都没有离开我们的视线,世界围棋界经历了层层震荡、人工智能话题都从它说起、变身马甲横扫棋坛六十位大将……

5月23日,中国乌镇,已经升级到2.0版本的谷歌人工智能AlphaGo将重燃“人机大战”战火,而此番来挑战的将是现今世界棋力第一的中国围棋选手柯洁。

文/定西

AlphaGo到底是谁?它又来自哪里?

我们首先来看看它的爸爸们,关键先生是戴密斯·哈萨比斯是人工智能科学家、DeepMind公司创始人,他4岁开始下国际象棋,8岁自学编程,13岁获得国际象棋大师称号,17岁进入剑桥大学攻读计算机科学专业。在大学里,他开始学习围棋。2005年进入伦敦大学学院攻读神经科学博士,选择大脑中的海马体作为研究对象。

两年后,他证明了5位因为海马体受伤而患上健忘症的病人,在畅想未来时也会面临障碍,并凭这项研究入讯科学》杂志的“年度突破奖”。2011年创办DeepMind Technologies公司,以“解决智能”为公司的终极目标。

还有大卫·席尔瓦 (David Silver),他是剑桥大学计算机科学学士、硕士,加拿大阿尔伯塔大学计算机科学博士,伦敦大学学院讲师,Google DeepMind研究员。除此之外,阿尔法围棋设计团队核心人员还有黄士杰(Aja Huang)、施恩·莱格(Shane Legg)和穆斯塔法·苏莱曼(Mustafa Suleyman)等。

而阿尔法围棋(AlphaGo)其实就是一款围棋人工智能程序。

它主要的工作原理是“深度学习”。深度学习是指多层的人工神经网络和训练它的方法,一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。

阿尔法围棋用到了很多新技术,如神经网络、深度学习、蒙特卡洛树搜索法等,使其实力有了实质性飞跃。美国脸书公司“黑暗森林”围棋软件的开发者田渊栋曾发表分析文章说:“阿尔法围棋系统主要由几个部分组成:

一、走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋;

二、快速走子(Fast rollout),目标和走棋网络一样,但在适当牺牲走棋质量的条件下,速度要比走棋网络快1000倍;

三、估值网络(Value Network),给定当前局面,估计是白胜还是黑胜;四、蒙特卡洛树搜索(Monte Carlo Tree Search),把以上这三个部分连起来,形成一个完整的系统。”

AlphaGo在那年春天一战成名!

2016年3月9日至15日在韩国首尔举行了韩国围棋九段棋手李世石与人工智能围棋程序“阿尔法围棋”之间的五番棋比赛。

比赛采用中国围棋规则,最终结果是人工智能阿尔法围棋以总比分4比1战胜人类代表李世石。

2016年3月9日,赛前猜先阿尔法围棋猜错,李世石选择黑棋,率先展开布局。黑棋布局走出新型,阿尔法应对不佳,出现失误。李世石抓住电脑布局不擅长应对新型的弱点获得不错的局面。但围棋的胜负关键往往是中盘阶段。阿尔法围棋之后的下法变得强硬,双方展开接触战。李世石抓住机会,围住一块大空,在大局上抢得先机,但他却放出了非常业余的手法,最后李世石算清后投子认输。

2016年3月10日,围棋人机大战展开第二局较量。阿尔法围棋执黑先行,李世石转变了行棋的风格,开局下得非常稳健,你来我往中,黑37和41两步尖冲令人匪夷所思,尤其是第41手,致目数大亏。中盘阶段,本来形势占优的李世石行棋过缓,右上角的一步二路打拔被视作败手,阿尔法围棋的优势逐渐清晰起来,阿尔法2比0领先。

2016年3月12日,围棋人机大战展开第三局较量。李世石执黑先行,该局开始前,还有棋迷希望李世石能够实现逆转,但阿尔法围棋彻底摧毁了这种可能。布局阶段,李世石左下挂角后走高中国流。行不到二十手,李世石局面就落入下风,围棋人机大战前三盘人类三连败。