德扑AI之父:赢不赢柯洁阿尔法狗都缺乏实际用处_人工智能_计算头条_中国计算网——工业互联网一站式服务平台—

此外，冷扑大师还有残局解算器（end-game solver）和自我强化学习这两个模块来辅助第一个模块。残局解算器会在残局时实时评估场上的情况，以判断第一模块中算出的纳什均衡是否符合实时情况。而自我强化学习会反思AI在比赛中的表现，找出曾被人类利用过的“套路”，清除这些可循的痕迹。

总体来说，阿尔法狗和冷扑大师的算法有三大明显不同。

第一，阿尔法狗的训练过程中用到了大量数据的深度学习，即通过大量给定的输入和输出形成稳定的处理。但计算机的处理过程本身是一个黑匣子。而冷扑大师没有用到时髦的深度学习，而是通过传统的线性规划提前算出纳什均衡，是一个“老式但好用的人工智能”（Good Old-Fashioned Artificial Intelligence）。

第二，阿尔法狗在深度学习过程中参考了数千万张人类棋谱，可以说是靠模仿人类高手起步的。虽然阿尔法狗也运用到了一些自我强化学习，但比重并不大。而冷扑大师完全是通过自我强化学习进行训练的。开发者从未教给它人类打牌的方法，只是向它描述了德扑的规则，由它“左右互搏”，摸索出德扑应该怎么玩。因而，冷扑大师的打法完全脱离了人类经验。值得注意的是，即将与柯洁在乌镇对战的阿尔法狗2.0将摈弃人类棋谱，完全采用一套自我摸索出来的下法。

第三，虽然阿尔法狗和冷扑大师都特别喜欢残局阶段下杀招，但它们的难度不一样。围棋下到残局，可走的招数越来越少，计算量也越来越简单；而德扑开到转牌和河牌时，可能性更多，局面变得更为复杂。因此，冷扑大师经常在转牌阶段做出长时间的停顿。

阿尔法狗和冷扑大师哪个更有用？

在冷扑大师的开发者、美国卡内基梅隆大学（CMU）计算机系教授托马斯?桑德霍姆（Tuomas Sandholm）和其博士生诺姆?布朗（Noam Brown）看来，这个问题的答案十分明显。在现实生活中，几乎不存在像围棋这样给出所有信息的完美情境，因而像阿尔法狗这样的算法也很难直接派上用常

在现实生活中，我们遇到的事情会更像玩德扑：商业谈判时对方未知的底牌、房屋拍卖时竞争对手难测的举动、股票交易中一些隐藏的内部消息。桑德霍姆认为，德扑AI打开了靠人工智能解决随机事件和隐藏信息的大门。这样的AI，才有望离开虚拟的棋牌世界，成为人类在现实生活中谈判、博弈和投资的好帮手。

桑德霍姆自己就成立了一家战略计算公司，希望利用人工智能解决金融上的一些战略计算问题。首先，金融交易拼的是速度，AI在量化交易上具有巨大优势。其次，像股票交易中经常会存在一些隐藏的信息，AI能在交易者较少的情况下，帮助人类在隐藏的信息面前做出决策。

阿尔法狗和冷扑大师哪个更厉害？

诺姆?布朗说道，每一种游戏从计算机科学的角度来说，都存在一些核心问题，而掌握这个游戏的AI相当于解决了这个核心的问题。围棋和德扑代表了两类完全不同的游戏，阿尔法狗和冷扑大师也在朝完全不同的两个方向探索。

只不过，围棋在“完美信息游戏”中属于高难度水平，因而阿尔法狗也在搜索这个核心问题上取得了巅峰成就。而冷扑大师刚刚打开了“非完美信息游戏”的大门，对于解决隐藏信息这个问题来说，德扑AI只是个开始。光就游戏而言，与德扑类似的奥马哈，就比德扑更为复杂一些。布朗说，他们对中国的麻将略知一二，麻将也是一种充满了隐藏信息的游戏。

登陆|注册欢迎登陆本站，认识更多朋友，获得更多精彩内容推荐！

2/2 首页上一页 1 2

德扑AI之父:赢不赢柯洁 阿尔法狗都缺乏实际用处

德扑AI之父:赢不赢柯洁阿尔法狗都缺乏实际用处