四位顶级AI大牛纵论:深度学习和大数据结合的红利还能持续多

颜水成:安防其实也有个问题,其实公司都是都希望自己的技术能直接与用户做交互,而做安防的话其实是默默的在后台弄这个东西,普通老百姓不一定知道这个东西的存在,这可能是它的一个缺点。其实我觉得做视觉的人,还是希望能让用户看见,就是做2C(to customer)东西。

俞凯:我个人感觉,如果是2C的话,也只有两种情况,一种情况就是你就是一个感知工具,这个感知工具是不可或缺的,比如输入法,这个在自然语言处理里面是完全不可或缺的东西。还有一个方向就是必须得是个系统,单独语音可能不行,单独图像可能也不行,它可能会以其中一个为主 ,但是必须是个系统。

颜水成:我觉得可能要等到AR眼镜所有的技术都成熟了,而且用户量比较大了,才能够让视觉成为dominant的东西。

山世光:会不会把希望寄托在了一件不可能发生的事情上?大家可以现场调研一下,有多少人愿意天天戴一个AR眼镜。

颜水成:请问现场有多少人体验过HoloLens?(现场观众举手),看起来二十分之一都不到。我们现在在座的根本没有多少人知道AR当前的现状是怎样的,没有体验过AR眼镜目前处于什么水平。我第一次带HoloLens眼镜的时候,只是在实验室里面体验了十分钟,用起来特别麻烦,因为微软一定要把它的账号跟HoloLens绑起来,又不好输入,我又不熟,搞的非常痛苦。但是有一次我太太恰好去外边旅游,我一个人在家里,我就用了整整半天的时间,在家里把HoloLens设置好,把里面各种各样的功能体验了一遍,然后就觉得这个东西还不错,离我想象的科幻电影里的样子又近了一点,但是还是有问题,HoloLens太沉了,视野太窄,而且续航也不太给力。后来看到Lumus这个专门做光学镜片的公司,它的产品能够把信息从侧面投影出来,通过光波导这种形式把信号反射到你的眼睛里面,能把眼镜做的和真的眼镜大小差不多。这样的话,极有可能能做到一款和普通的眼镜大小差不多的AR眼镜。

此外还有一些人在做SLAM技术,以及一些配套的手势控制的技术。特别是当我看到Lumus的那个眼镜,加上一个叫Infinity公司的SLAM技术,合在一起的时候,你就会觉得这个眼镜可以做的很小,并不是遥不可及的,我觉得AR眼镜发展的脚步比我们想象的快了一些。所以大家有机会的话,应该去体验一下。

深度学习加大数据的模式会面临天花板吗?如何解决?

山世光:我们还是回到这个话题上来,我解读一下这个话题为什么这样去设置。其实这里面有两个问题。第一个问题是说深度学习加上大数据这样一个模式的,会不会出现天花板的情况?昨天余凯(平线机器人创始人兼 CEO,前百度研究院执行院长)的PPT里面正好有一张图片,横坐标是数据量,纵坐标是performance,那么这个曲线的走势是会逐渐趋于平缓呢?还是会一直往上走?

第二个问题就是天花板出现了之后怎么办,就是你有了大数据,但是达到了天花板,你还没有满足用户的需求,那你还有没有其他的技术。人很多时候并不是依靠大数据来学习,我们是不是在下一波里面会更重视这种不需要大量数据的学习算法。之前也有讨论,有多少人工智能,就有多少人工数据标注的工作,是不是可以避免这个问题?请三位从这两个角度解读一下。

俞凯:我把我刚才说的扩展一下,先倒着来说,就是第二个问题,我的一个基本观点就是闭环的将会成为未来的一个研究主流,甚至有可能是工业界的主流,它最大的特点就是对于人工标注数据的需求大大降低,这个是我特别明确的感受。比如GAN,它是机器自己生成数据,只是这个生成方法是闭环的,所以使得它生成的数据特别好,要是强化学习的话,直接和环境进行交互,它们利用都不是一个一个正常的、离线的、大规模的人工预标注。因此从第二个问题的角度上讲,我会认为闭环学习是一个比较大的方向。另外一个事情就是,观看机器学习的整体发展进程,我特别同意李老师的观点,他说的是符号学习和深度学习,我的观点就是数据和知识双驱动,我觉得这个方向将会是未来特别特别重要的方向。

李航:关于第一个问题,其实大数据永远解决不了长尾问题,自然语言处理的这个倾向非常明显。比如说现在的输入法、语音识别,在有专有名词、术语、或者夹杂英语单词的时候,肯定识别不好,不管你灌多大的数据。因为你收集的语料越多,新词的量也在同时增加,永远会有长尾的词出现,那么怎么样去处理?至少现在用深度学习或者自然语言处理的方法,还不能很好的解决这个问题,其实语音识别也是一样的,还没有完全解决这个问题。但是人肯定不会有这个问题,一个是语言的使用能力,你可以认为是人类几百万年进化出来的能力,让你在听到一个陌生的单词的时候,可以利用你的语言能力做推理,做联想,做判断,来弥补这些问题。我们现在的深度学习,或者整个人工智能领域都没有这样的技术去弥补这样的事情。这块的话,明显说明大数据、深度学习不是万能的。我们可以在未来短期的时间里面,解决一些问题,比如刚才说到这个输入法的问题,我可以把它变成personalised(个性化),或者是context dependent(基于上下文)来处理,可能做的更好一些。模型上,我可以嫁接在sequence  to sequence learning这种大的框架里面,我可以把一些事情做的很漂亮,也很有效。但是本质上,并不是像人一样处理长尾现象,因此大数据、深度学习肯定不是万能的。