四位顶级AI大牛纵论:深度学习和大数据结合的红利还能持续多

这轮 AI 热潮的很大一个特点就是底层技术方面在打通,虽然说过去对通用人工智能大家曾经有过很高的期望,但一直没有落地。这次,深度学习给大家带来了很多机会,使得我们在底层技术方面有了越来越多的共性。然而深度学习并不是万能的,那么它的局限性在哪里?当遇到天花板时又该如何呢?

4月8日,在 ADL 第78期“深度学习:从算法到应用”的 Panel 环节,四位顶级 AI 学术大牛同台纵论驱动这一轮 AI 浪潮的底层技术,主题为“深度学习和大数据结合的红利还能持续多久”。

1

从左到右分别是:山世光、颜水成、李航、俞凯

四位分别是:

中科院计算所研究员、博导,中科视拓创始人、董事长兼 CTO 山世光

360副总裁、 首席科学家颜水成

华为诺亚方舟实验室主任李航

上海交通大学研究院、思必驰创始人兼首席科学家俞凯

于 2017 年 4 月 7-9 日举办的中国计算机学会学科前沿讲习班(CCF Advanced Disciplines Lectures,简称 ADL)第 78 期,是由 CCF 和 KDD China 联合主办的高端学术及技术系列性品牌活动。

底层技术在打通,声、图、文领域相互借鉴

山世光:今天的三位大咖里,俞凯老师做语音识别,颜水成老师主攻视觉方向,而李航老师则在自然语言的理解处理领域非常资深,而且在更加广泛的人工智能上问题上也有研究,包含了声、图、文三个领域。我们今天讨论的题目就是“深度学习和大数据的红利在 AI 领域还能持续多久”,既然不同研究领域的人都坐到一起了,那我们就先讲讲这个大家互相跨界的情况。为什么这么说呢?因为我个人觉得这一轮AI热潮很大的一个特点就是底层技术方面在打通。虽然过去我们对通用的人工智能曾经有过很高的期望,但是实际上一直没有落地,但是如今深度学习给大家带来了很多的机会,而且底层的技术有了越来越多的共性,比如说卷积神经网络不仅在语音里面有用,在自然语言处理里面也有应用,所以我想请三位从这个视角谈一下,这一轮AI在通用技术方面有什么样的进展?

俞凯:稍微纠正一下,大家不要以为我是做语音识别的,我一定要说这句话,为什么?我所做的事情其实是口语对话系统,包括语音识别、语音合成等大家可以想得到的东西。更重要的是,我做的是对话,或者说是以交互为主要方式的人机口语对话系统。

对话实际上是认知控制,你可以认为我做的是以口语作为主要通道的感知加上认知,在这一点上我和李航老师是有重叠的,都是交互的自然语言处理。我为什么会提这个?因为声、图、文,如果从这个角度分的话,实际上都可以看是成感知层面的东西,但是它后面所对接的都是理解、交互的控制、人的决策和推理,这些部分是在声图文领域的从业者或多或少都会涉及到的,无论是颜水成老师还是李航老师。所以我想把它分成两层,从感知上看我们做的不一样的,但是后面的东西,大家做的很多都是类似的,比如大家会做到理解这一层,而我还会做到交互这一层。

关于这一轮的AI潮,我说一下自己的感受。我先抛一个观点,凡是在机器学习范式上一样的东西,声图文全都可以用,而且任何一个机器学习方法在这三样里面都可以用。什么叫范式?比如说分类问题,CNN之所以在语音识别里用的多,很重要的一点就是它能够处理高度非线性的映射,有非常好的分类能力。只要是面对这样的问题,就一定可用,所以我们现在也很关注图像方面的东西。

(山世光:这个我可能会有不同意的观点,我个人觉得更多的是学Feature。)

只要是能够归结为范式性的东西,第一是分类,第二是回归,这是最典型的两类事,第三是序列标注。只要能归属这三类的,几乎都可以通用,只是用的方法不一样。

李航:你刚才提到深度学习和大数据的结合红利,以及人工智能在技术层面上的打通,未来在应用层面上也会有很多的机会。

现在在UC Berkeley有一种研究,就是给机器人看一段“人开门”的视频,机器人在看完视频之后,可以学会自己用手去开门。以前这种运动和视频的理解是完全不同的领域。大家自然可以想到相关的,比如我跟你说一段话,这个机器会不会理解,能做什么事情,这种可能性在未来应该是有的。在深度学习、大数据这些技术的延长线上,假设有很多的数据,以及很强的计算能力,这种跨模态、跨领域的应用,应该是未来发展的一个增长点。