四位顶级AI大牛纵论：深度学习和大数据结合的红利还能持续多_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

颜水成：现在还是有不少这种纯视觉的APP的，比如美图秀秀、FaceU，这些就是典型的视觉。我个人觉得视觉这个领域的话，因为它经常可以有不同的创新，比如说今年非常典型的热点就是短视频的生产和聚合，各大创业公司（以今日头条为代表），以及传统的IT公司（比如360、百度、腾讯），都在推动短视频，这些东西跟传统的纯粹图像分析不一样。短视频兴起后，你的计算模型的efficiency，推荐算法等，都会跟以前完全不一样。比如图文的时候，可以用surrounding text做一些事情，那么短视频出现之后的话，可能就没有什么太多的caption（字幕）或者title（标题）的东西，这个时候主要依赖的是视觉的东西。无论是学术界工业界，其实对短视频的分析的投入和研发的力度是加强了的。虽然声音还在里面，但是可能对于文本的依赖性变弱了。从视觉维度来说的话，深度学习和大数据结合红利又一波又要来了，而不是到了瓶颈期。

山世光：就是视频的结构化、符号化和后端的搜索、应用的连接。

李航：这是个挺好的例子，其实刚才我们提到的语音，俞凯老师做的东西跟语言相关，只不过是从语音对话的角度去看这个东西，其实语音和语言比较容易自然的结合在一起，现在已经变成一个相对比较大的领域。我对未来的预测是，真正做语音识别的人会越来越少，而做语音对话的人会越来越多，这是一个整体的大的领域，而语音识别是其中一部分。

颜水成：对于语音对话这块，我个人的观点有点不一样，对话非常依赖于语料，这样的话，只有两类公司比较适合做这个事情。一类的话就是有search engine的公司，还有一类就是以腾讯、微软为代表的，有instant message产品的公司，比如微信、Skype。这些公司有天然的优势。

李航：我们俩说的其实不矛盾，这个领域有这样的应用，那么自然就需要将语音、语言的处理技术融合起来。相对来说，传统的语音识别和语言处理的人会越来越少，而在更大的应用背景下，更大的技术范围内，人会越来越多，这是我的预测。

俞凯：其实是这样，对话也分很多种类，刚才所说的open domain（开放领域），其实只是其中的一小类，而且是离商业化最远的一类。

颜水成：但是老百姓最期待的可能是这个玩意。

俞凯：其实不是，从投资的角度、以及技术的角度来讲的话，最集中的就是垂直领域的任务性对话，这个是一定的。

颜水成：对，这是落地性非常好的，但是我们看到的科幻片，或者老百姓他不能区分什么是task，什么是open domain。他们想的是，可能会有一个新的机器人出现，它可以安慰我，给我提供各种各样的信息，但是我们现在真正能够提供的，还是像Alexa Skills这样的东西。

俞凯：从这个角度来讲，其实那些比较open的语料，对于研究来说是有一定价值的，对于未来畅想也很有意思，但是从实际落地和真正的研究语义区分角度来讲，其实大公司并没有优势，原因非常简单，就是在机器学习的范式上，它不再是一个基于离线语料的学习，尤其是对话决策这一类，机器学习是需要在线和环境交互，才能真正去学的，而这样一类事情，全世界都才开始做。所以我觉得，细分下来的话，在对话的领域里面，至少有聊天、问答、任务性对话三个比较难的课题。我把open domain看成是特殊的聊天。

这三种用的技术都不一样，而它的商业化模式区别也比较大。所以我会有一个感觉，可能细分能让大家把这件事看的更具体一点。回答刚才山世光老师提到的关于图像商业化这个问题，我也再说一个观点：不解决痛点，只解决痒点。什么意思呢？就是我一天不上微信，我简直就不行，我昨天两点钟到了宾馆，我睡觉之前一定要看微信，因为在飞机上没法看，那个是痛点，真的很痛，我如果忘了这个，比如说李老师给我发了微信，我如果不知道，这后面就麻烦了，但是如果我不打开那个对话APP，这是没事的，所以这是痒点，这一点特别关键，它到底是疼的还是痒的。而从视觉的角度上讲，其实我的感觉是有很多痛点的，而且比以前还痛，这就是为什么，虽然现在语音的发展潜力非常大，但是从现实的情况上来看，整体上视觉公司估值已经比语音这边高，而整个核心的应用是一个什么东西呢？安防。安防这件事情是非常清晰的应用。刚才提到的好几类，包括说这个APP的问题，第一要区分你做这个APP的性质是什么，到底是工具性，还是社交性的，如果连这个都不区分的话，你的方向就不清楚，你就不知道，技术在里面占多大比例，工具性的占的比例高一点，但是社交性的、游戏性的技术比例可能很低很低。而在安防领域，其实图像是完全dominant的。

4/9 首页上一页 2 3 4 5 6 7 下一页尾页