哈萨比斯:AlphaGo是如何研发出来的 意味着什么

媒体智能讯 5月24日消息,围棋峰会进入第二天,在今日举行的人工智能高峰论坛上,DeepMind创始人杰米斯.哈萨比斯(Demis Hassabis)发表了演讲,介绍了AlphaGo的研发过程,以及AlphaGo意味着什么。

AlphaGo是DeepMind公司打造了人工智能系统,DeepMind在2010年于伦敦创立,在2014年加入Google。据哈萨比斯介绍,DeepMind参与了谷歌人工智能的“阿波罗计划”,另外还还打造了研发科学的新方式。

“DeepMind的愿景是研究何为AI,然后再用智能解决所有问题,即我们怎样提出有效的建议去解决问题,我们最终希望建立通用人工智能。”哈萨比斯说到。

据哈萨比斯透露,AlphaGo打造的通用学习机器有两个特性,一个是“学习”,即非程序预设,可以自主学习原始材料。另一个是通用性,即同一个系统可以执行多种任务。“一系列的算法和系统能够做系列的任务,这些任务可能是前所未见的。”哈萨比斯表示,通用的强人工智能,与现在弱人工智能不一样,目前弱人工智能都是预设的,其实IBM在上世纪90年代设计的国际象棋程序也是预设的预设的人工智能,“它是通过蛮力搜索,机器被动的接受这个程序,不能自我学习。”哈萨比斯说到。

DeepMind希望打造强化学习框架,哈萨比斯称,强化学习框架就是让“智能体”深处在一个真实/虚拟的环境中,去完成一个特定的目标。为了完成这项任务,智能体可以观察环境,这其中有视觉、听觉、触觉等观察方式。在这个之后,在头脑中设置一个想法,然后采取行动,践行计划。在实时的观察中就可以行动的。“如果能解决这个问题,其实强人工智能就已经实现了,这与人这一智能体观察学习的方式是一样的。”哈萨比斯表示。

哈萨比斯提到了雅达利智能体,这是DeepMind在AlphaGo之前(三年前)研发的AI程序,通过2600测试台,测试百余款八十年代的八位元雅达利游戏。当时的雅达利智能体仅仅输入原始像素(~30),目标是利用深度强化学习,玩好雅达利游戏。

AlphaGo目前成为DeepMind最新的人工智能系统。哈萨比斯称,虽然AlphaGo是玩围棋的,但是它也可以做其他东西。

为什么计算机下围棋非常困难?这是因为其复杂程度让穷举搜索都难以解决,这个难题包括两个方面,一是“不可能”写出评估程序以决定输赢,另一个是搜索空间太过庞大。

在哈萨比斯看来,更困难的是围棋不像象棋等游戏靠计算,而是靠直觉。“围棋中没有等级概念,所有棋子都一样,围棋是筑防游戏,因此需要盘算未来。你在下棋的过程中,是棋盘在心中,必须要预测未来。小小一个棋子可撼动全局,牵一发动全身。围棋'妙手'如受天启。”哈萨比斯如此解释围棋中的直觉。

在技术上,AlphaGo用到了两种网络:策略网络和估值网络,这些技术去年在《Nature》上发表,并启发了很多研究者设计自己的人工智能系统。

哈萨比斯回忆到,此后我们进行了测试,2016年我们让AlphaGo与李世石对弈,最后AlphaGo以4:1战胜了李世石,“这一刻我们等了十年,真的是十年磨一剑。”李世石感慨到。

AlphaGo吸引了2.8亿的观众,3.5万篇的报道,棋盘销售在西方增加了10倍。哈萨比斯回忆了其中(AlphaGo对弈李世石)的精彩之处,分别是第二局第37步棋令人惊叹,它让我们思考:几千年来,你人类都低估了第5条线下子的价值。另外,还有第四局绝伦的第78着,他赢得了一盘。李世石说,“我认为这给围棋引入了新思路,我感觉找到了继续玩围棋的新理由。”

哈萨比斯称,很多艺术都是主观,AlphaGo把围棋看做了一个客观的艺术,每一步都会分析有什么影响。“因此,我给直觉的定义是,通过体验获得初步感知,无法表达出来,可通过行为确认其存在和正误。”哈萨比斯表示,AlphaGo已经可以模仿人的直觉,而且具备创造力,通过组合已有知识或独特想法的能力。所以AlphaGo已经有了直觉和创造力,不过这些能力目前仅仅局限在围棋上。