四位顶级AI大牛纵论:深度学习和大数据结合的红利还能持续多

什么叫传统?比如说分类问题,比如说回归问题,它们的范式都有一个特点,我把这个特点称为开环学习。就是说你有一个模型,我有一个数据进来,你要优化一个准则,然后你出去,就这么简单,你只需要去想这个模型怎么变。但是从2013、2014年开始,出现了另外一个方向,这个方向可能跟大数据在一定程度上有矛盾,因为前面的开环学习,必须要有足够多的大数据,而且什么叫多?不是数量,一定指的是质量,要能够覆盖各种各样的可能性,完了之后你去学它,主要依靠大数据,以及模型强大的非线性运算的能力。到了后面出现了一个问题是,“我没有数据怎么办”,或者“我数据不均衡怎么办”。于是我们有了强化学习(reinforcement learning),生成对抗网络(GANs),还有微软的对偶学习(dual learning)。这些学习都有一个特点,可以归为一类,叫闭环学习,什么意思?它的数据也好,它的准则也好,它都不是一个开环的,都要有feedback signal,这个feddback signal往往是从不可预计的外部环境来的。

在你们做了前面所有的学习的时候,比如监督学习(supervised learning),它的系统是你预先设计好的,所以你必须收集数据,必须预先设置好signal,但是到了第二个阶段,这些signal是没有设定好的,它是自己出来的。比如说强化学习,它是和环境交互,比如说生成式对抗网络和对偶学习,它是和自己交互。这个红利能持续多久,取决于这个范式的变化,这是我抛的第二个观点。

山世光:其实我觉得视觉和语音领域,还是借鉴很多来自于自然语言理解领域的一些技术方法,比如说上一代的一些模型,已经在视觉领域里面用了好多年,在深度学习出来之前,基本上是这一套。那么除了这个之外的话,据您(李航老师)的了解,还有什么样的技术可能是在原理或者历史上,也借鉴了自然语言理解的技术?或者反过来说,自然语言的理解领域的同行们,他们会不会也关注语音或者视觉这些领域的进展?

李航:刚才你说那个现象,以前可能在自然语言和其他的人工智能领域之间也是这样,大家不会关注视觉和语音方面的事情。现在这个界限慢慢越来越模糊了,大家会互相借鉴,这个现象可能是历史上没有发生过的。然后你们刚刚说的这个声图文,其实“文”里面有一个和声、图本质上不一样的地方,它有这个符号(symbol),它的本质的特点就是在语音识别以后,转换成了符号。在语言表达的时候,我们认为我们能够理解一些概念,传达一些概念的时候,其实是有对应的符号的,这个就是跟语音和图像不太一样的地方。

说到深度学习,刚才俞凯老师说的我也挺同意的,2014年左右,有一个顶峰过去了,下一波从我们自然语言处理的角度来看的话,怎么样能够把深度学习的技术neural processing和symbol processing结合起来,是自然语言未来必然要去解决的问题。这里面有很多挑战,首先就是目前还不清楚人的大脑里面这种符号到底对应的是什么东西,怎么样能够像做CNN一样扩展现在的深度模型也不是很清楚。符号其实是挺硬的东西,而深度学习、神经网络是很软的东西,我们处理人的语言,包括对话的理解,从文本里面获取知识,理解文本的内容,这些应用都是需要这种软、硬处理的结合。我认为自然语言处理和深度学习未来发展的重要关键就是“怎样做neural symbolic processing”,这块是可能跟其他两类不太一样。

声、图、文怎样落地?

山世光:我最近其实特别羡慕做语音的,为什么这么说呢?因为语音这个领域,它处理的结果直接变成了符号,但是视觉这块,我们自己说一图胜千言,好象是说一张图可以有很多很多的符号出来,但是它其实和非常精确的命令,比如说我们去控制一个东西,和语音以及语言是直接相关的,从这点来讲的话,语音就有非常丰富的内容,可以很精确的去表达,这也是为什么说语音的应用比视觉更早了一步。特别是语音识别,跟自然语言理解的连接更加直接一点,而视觉这块就稍微弱了一点,但是最近两年有一个专门话题是vision和language(视觉和语言),大概是从2015年才开始的,之前也有人做,但是做的很烂。2015年之后看起来好像有一些声称通过了图灵测试,但是我觉得还是有点弱。从这点来讲的话,比如说做APP,我自己去创业的时候,别人都会说视觉能不能做一个单独的APP给用户用,而不是说作为一个锦上添花的东西嵌入到一个已有的系统里面去,是不是视觉会有这种缺陷?