从大胜李世石到险胜柯洁，AlphaGo这一年经历了什么？_国内_物联网_中国计算网——工业互联网一站式服务平台—

　　世界排名第一的柯洁，曾认真研究了一年多AlphaGo喜欢的三三式;在这一年多，AlphaGo则从第18代迭代为第60代。这些表象背后，人工智能深度学习能力经历了怎样的演进?

　　5月23日上午10点半，备受全世界瞩目的人机大战第二季将全面打响。最终，人类围棋界排名第一的中国棋手柯洁输给了AI界排名第一的AlphaGo围棋人工智能程序。

　　一场科技层面注定失败的比赛

　　这是一场业内同行普遍不看好结果的比赛。

　　尽管柯洁在大战前悲壮地表示，“我会用所有的热情去与它做最后的对决，不管面对再强大的对手——我也绝不会后退!”赛前的豪迈，依然改变不了失败的结果。在专业棋手看来，输四分之一子的柯洁虽败犹荣。

　　对柯洁而言，这是一场注定艰难但必须争胜的战斗。在此之前，柯洁专门研究了AlphaGo喜欢的三三式，并在比赛中应用。

　　而在这一年中，AlphaGo从对阵李世石时的第18代，迭代为对阵柯洁时的第60代。快速迭代的背后，是AlphaGo全新的深度学习逻辑。这种经历迭代的深度学习逻辑，其强大力让人难以望其项背。

　　深度学习的两次逻辑变更

　　2016年在AlphaGo以4：1大胜李世石后，人工智能再次进入大众的视野，而在这场世纪“人机大战”后，Deepmind随即宣布“阿尔法狗”进入闭关状态。

　　直到2016年12月29日，神秘的AlphaGo才化身为Master再次复出。随后其在短短一周内，击败了包括目前中韩第一人柯洁和朴廷桓，以及古力、陈耀烨、范廷钰、常昊等10多位中韩世界冠军，豪取60连胜，就连原来信心满满的柯洁也对此也一改以往自信狂傲的口吻，声称自己很可能全输给AlphaGo。

　　而前两次人机对决的场景还历历在目，第三次人机大战却已悄然来临，但整个人类世界对于两方选手的感情却发生了颠覆性的变化，一边倒的认为柯洁必输。

　　那么这一年时间里AlphaGo身上究竟发生了什么?居然让舆论变化如此之大，这无疑源于人们对AlphaGo了解的加深。

　　与李世石对战的AlphaGo 1.0版混合了三种算法：蒙特卡洛树搜索+监督学习+增强学习。其中，蒙特卡洛树搜索是一种优化过的暴力计算，比1997年深蓝的暴力计算更聪明。而这里的监督学习，是通过学习3000万步人类棋谱，对六段以上职业棋手走棋规律进行模仿，也是AlphaGo获得突破性进展的关键算法。而增强学习作为辅助，是两台AlphaGo从自我对战众中学习如何下棋，对棋力提升有限。

　　此次AlphaGo2.0的技术原理已有颠覆式改变。首先是放弃了监督学习，没有再用人的3000万局棋谱进行训练。这本是AlphaGo最亮眼的算法，也是今天主流机器学习不可避免的核心条件：依赖于优质的数据，在这个特定问题下就这么被再次突破了。

　　其次，放弃了蒙特卡洛树搜索，不再进行暴力计算。理论上，算法越笨，就越需要暴力计算做补充。算法越聪明，就可以大大减少暴力计算。从AlphaGo 2.0的“马甲”Master的历史行为看，走棋非常迅速，约在每10秒钟就走棋一步，如此速度很可能是放弃了暴力的计算。

　　再次，极大地强化了增强学习的作用，之前敲边鼓的算法，正式成为扛把子主力。想想看有多励志：两台白痴机器，遵守走棋和获胜规则，从随机走棋开始日夜切磋，总结经验，不断批评和自我批评，一周后终成大器。

　　通俗地讲，1.0版本的AlphaGo尚需借助人类棋谱来增长功力，而新版阿尔法狗2.0已正式摒弃人类棋谱，只靠计算机自身深度学习的方式成长——即探索“深度学习”方式的极限，臻至“围棋之神”的境界。所以，它现在在围棋方面俨然打通了任督二脉，人类根本找不到其脉搏。

　　而在今年 4 月，AlphaGo 之父哈萨比斯在英国剑桥大学进行了演讲，专门提到为了帮助 AlphaGo 提升。他公开表示，之前 AlphaGo 提升一个版本需要 3 个月，现在只需要 1 周。AlphaGo 对阵李世石时的版本号是 V18，而当下的版本估计已经到了 V60，在逻辑上和棋局策略上已经今非昔比。

1/2 1 2 下一页尾页