四位顶级AI大牛纵论：深度学习和大数据结合的红利还能持续多_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

这轮 AI 热潮的很大一个特点就是底层技术方面在打通，虽然说过去对通用人工智能大家曾经有过很高的期望，但一直没有落地。这次，深度学习给大家带来了很多机会，使得我们在底层技术方面有了越来越多的共性。然而深度学习并不是万能的，那么它的局限性在哪里？当遇到天花板时又该如何呢？

4月8日，在 ADL 第78期“深度学习：从算法到应用”的 Panel 环节，四位顶级 AI 学术大牛同台纵论驱动这一轮 AI 浪潮的底层技术，主题为“深度学习和大数据结合的红利还能持续多久”。

从左到右分别是：山世光、颜水成、李航、俞凯

四位分别是：

中科院计算所研究员、博导，中科视拓创始人、董事长兼 CTO 山世光

360副总裁、首席科学家颜水成

华为诺亚方舟实验室主任李航

上海交通大学研究院、思必驰创始人兼首席科学家俞凯

于 2017 年 4 月 7-9 日举办的中国计算机学会学科前沿讲习班（CCF Advanced Disciplines Lectures，简称 ADL）第 78 期，是由 CCF 和 KDD China 联合主办的高端学术及技术系列性品牌活动。

底层技术在打通，声、图、文领域相互借鉴

山世光：今天的三位大咖里，俞凯老师做语音识别，颜水成老师主攻视觉方向，而李航老师则在自然语言的理解处理领域非常资深，而且在更加广泛的人工智能上问题上也有研究，包含了声、图、文三个领域。我们今天讨论的题目就是“深度学习和大数据的红利在 AI 领域还能持续多久”，既然不同研究领域的人都坐到一起了，那我们就先讲讲这个大家互相跨界的情况。为什么这么说呢？因为我个人觉得这一轮AI热潮很大的一个特点就是底层技术方面在打通。虽然过去我们对通用的人工智能曾经有过很高的期望，但是实际上一直没有落地，但是如今深度学习给大家带来了很多的机会，而且底层的技术有了越来越多的共性，比如说卷积神经网络不仅在语音里面有用，在自然语言处理里面也有应用，所以我想请三位从这个视角谈一下，这一轮AI在通用技术方面有什么样的进展？

俞凯：稍微纠正一下，大家不要以为我是做语音识别的，我一定要说这句话，为什么？我所做的事情其实是口语对话系统，包括语音识别、语音合成等大家可以想得到的东西。更重要的是，我做的是对话，或者说是以交互为主要方式的人机口语对话系统。

对话实际上是认知控制，你可以认为我做的是以口语作为主要通道的感知加上认知，在这一点上我和李航老师是有重叠的，都是交互的自然语言处理。我为什么会提这个？因为声、图、文，如果从这个角度分的话，实际上都可以看是成感知层面的东西，但是它后面所对接的都是理解、交互的控制、人的决策和推理，这些部分是在声图文领域的从业者或多或少都会涉及到的，无论是颜水成老师还是李航老师。所以我想把它分成两层，从感知上看我们做的不一样的，但是后面的东西，大家做的很多都是类似的，比如大家会做到理解这一层，而我还会做到交互这一层。

关于这一轮的AI潮，我说一下自己的感受。我先抛一个观点，凡是在机器学习范式上一样的东西，声图文全都可以用，而且任何一个机器学习方法在这三样里面都可以用。什么叫范式？比如说分类问题，CNN之所以在语音识别里用的多，很重要的一点就是它能够处理高度非线性的映射，有非常好的分类能力。只要是面对这样的问题，就一定可用，所以我们现在也很关注图像方面的东西。

（山世光：这个我可能会有不同意的观点，我个人觉得更多的是学Feature。）

只要是能够归结为范式性的东西，第一是分类，第二是回归，这是最典型的两类事，第三是序列标注。只要能归属这三类的，几乎都可以通用，只是用的方法不一样。

李航：你刚才提到深度学习和大数据的结合红利，以及人工智能在技术层面上的打通，未来在应用层面上也会有很多的机会。

现在在UC Berkeley有一种研究，就是给机器人看一段“人开门”的视频，机器人在看完视频之后，可以学会自己用手去开门。以前这种运动和视频的理解是完全不同的领域。大家自然可以想到相关的，比如我跟你说一段话，这个机器会不会理解，能做什么事情，这种可能性在未来应该是有的。在深度学习、大数据这些技术的延长线上，假设有很多的数据，以及很强的计算能力，这种跨模态、跨领域的应用，应该是未来发展的一个增长点。

1/9 1 2 3 4 5 6 下一页尾页