百度研究院副院长余凯重磅演讲:从大数据到人工智能

这么多连接带来的结果就是数据的暴增。大数据的时代实际上由万物互联导致,但数据也给我们的服务和产品一个学习的机会。从学术研究的角度讲,人工智能在过去五六十年里起起伏伏,但真正大规模的应用是从互联网也就是2000年开始的,从2000年-2009年,我把这个时代叫做“润物细无声”,因为在互联网时代,无论是搜索还是广告都有大量的人工智能技术,但这些技术主要是一些后台的技术,不一定那么容易被感知。

我们当前所处的时代,从2010年到2019年我用一个词叫“于无声处听惊雷”,互联网行业很多朋友确实都感到这种轰隆隆的雷声。大数据的产生、计算能力、带宽、深度学习这种技术的发展使得AI开始从后台走到前台,比如说语音识别,我记得三年前我组建百度语音识别的团队,我们当时发现招不到人,我觉得很奇怪,我记得我读大学的时候不是有很多人在从事语音识别的研究吗?后来我一打听,他们全部转行了。因为在深度学习之前的时代,语音识别看不到希望,大家觉得没法继续做研究,但今天语音识别已经是触手可达,而且发展非常快。包括图像,包括自然语言的理解,包括机器人的技术都是如此。

从大数据到深度学习的人工智能

人工智能技术最近为什么这么受到重视?我觉得最重要的原因是大数据,第二个原因是计算能力,第三个原因就是深度学习。最顶尖的互联网公司在这个领域都有相当投入,百度在深度学习领域可以说是投资最大的公司之一。

大数据

为什么深度学习受到重视?首先第一点就是深度学习技术有一个浪漫主义的方面,就是深度学习从机制、行为等方面和大脑有一些关联性。这点在媒体强调得比较多,但从我们的角度来讲这反而是最不重要的原因。

第二点是深度学习特别适合大数据。一开始深度学习有受到生物神经系统的启发,但随后的进展主要是因为统计、建模、大数据和功能实现。

然后第三点它带来的是一个思维观念也就是解决问题方式的改变。过去我们一般先对数据做一些预处理,然后通过机器建模的方法去处理数据,但深度学习带来的一个改变,就是端到端的学习,希望把原始数据放到系统里,中间每个步骤都是用学习的方法去完成。比如说语音识别,它分为好几个步骤,但这几个步骤是不是去一致性的优化?不一定。但深度学习的目标是去一致性的优化最终的目标的。

第四点,也是一个纠正,就是很多人觉得深度学习是一个黑箱系统,觉得你不需要太多的了解,只要去用它就好了。实际上深度学习和机器学习一样,提供的是一套框架,一套语言系统。什么叫语言系统?比如中文就是一套语言系统,你要写出优美的文章至少需要两个条件,第一是你要掌握这种语言,第二是你对生活的感悟。套用在深度学习上也有两个条件,第一个就是你要有驾驭这个模型和计算的能力,第二个就是对问题要有足够的了解。

我给大家举一些例子。深度学习最成功的一个例子是卷及神经网络,他确实和我们对视觉神经系统的了解尤其是早期的视觉皮层细胞关系是非常大的。今天我们的深度学习已经远远超越这些模型的结构。打个比方,他们之间为什么不一样呢?这就好比研究鸟类如何飞行,但深度学习是像波音公司研究如何造飞机,本质上并不一样,今天我们的飞机可以长得完全不像鸟,更多的是空气动力学、机械方面的东西。

从统计和计算的角度讲,深度学习的原因其实更基础。一个机器学习系统,我们可能对它的误差的每个来源去做分解,去了解和控制它,从而可以控制整体的预测误差。一般做机器学习我们会做一些假设,我们知道所有假设都不是完美的,也就是第一个,模型的不完美。第二个问题是数据的不完美导致的,比如说数据是有限的,有偏的;第三个是计算的不完美。统计学通常关心前两个问题,但在现实中,比如说我的一个工程师说,老大,我这个问题需要五百台机器。我说,扯淡,我最多给你五十台。他说,五十台的话,我需要算半年。那我说,不行,必须今天晚上算出来。在有限的计算资源下去处理这样的问题,我们必须要考虑这种计算的不完美。

大数据