Uszkoreit 博士:深度学习还不足以解决NLP 核心问题

商业智能适用于所有的公司,不只针对制造业。它的基础是组织内部有关从战略决策到日常运作的所有决策过程的数据。这些数据大多来自公司内部,但很多重要的信号来自于外部的消费者、投资者、政策制定者、供应商和承包商,以及员工们的生活领域。对所有这些数据的分析,有助于做出更好的决策,甚至优化并调整决策的过程。

对于制造业来说,商业智能是工业 4.0 的一部分。今天我们所能看到的,只是商业智能与工业 4.0 的第一步。这里的数据通常是需要去主动获取与整合的。对于数据解释,特别是针对非结构化的数据,AI 将扮演一个重要角色,并从数据中不断学习。物流与供应链领域的控制、优化以及预测管理,就是这方面 AI 应用的具体实例。

语言技术是 AI 的核心

记者:您是语言技术顶级专家。就语言技术来说,它在 AI 中的角色是怎样的?前景如何?对于自然语言处理,它是否也存在一个突破性的时刻,正如深度学习之于图像识别、语音识别那样?

Hans Uszkoreit:语言是知识的钥匙,而知识正是 AI 的终极目标。人类社会的知识,正是通过语言来代代相传的。仅靠观察他人,人类是无法获取到广泛的可复用知识的。对于下一代智能系统所需的知识,人工智能必须能同时进行“阅读”和“聆听”才能获取到。而此等程度的机器学习,其关键技术正是 NLP。NLP 还是实现人与 AI 之间成功沟通的技术关键。所以说,语言技术是 AI 的核心部分,并将在很大程度上同知识技术相结合。

记者:您怎么看当前的消费级语言技术?特别是当下大热的智能语音助手,比如亚马逊的 Echo、苹果的 HomePod 等?

Hans Uszkoreit:这些智能助理正在成为我们日常生活的一部分。我自己也每天都在使用。它们还远未完美,但能被快速改进,因为其前卫的用户每天都在提供大量的免费数据给它们。

汉语在语义理解上有一定潜力

记者:对于不同的语言,其语言处理技术有何差异?比如说,汉语和英语。

Hans Uszkoreit:不同的语言差异确实很大。尽管作为口语,汉语和英语都能在同样的时间内被小孩学会。但细节上,汉语没有词法,句法也相当简单。二者作为书面语,绝无可能在同样的时间内被人学会。事实上,汉语的复杂性绝无仅有。这对 NLP 来说更为棘手:汉语词汇甚至都没有起始标识。除了语言本身所固有的复杂性,汉语更难于用电脑处理的原因还有另外一个:NLP 一直是被以英格兰为中心的研究所主导。

但如果 NLP 未来的研究方法和算法在处理汉语和其他东亚语言时的效果能超过英语,我也不会特别意外。这有一个先决条件,即找到语义理解上的改进办法,毕竟句法在汉语中的重要性要远小于西方语言。

深度学习还不足以解决 NLP 的核心问题

记者:上个月,Yann LeCun 对阵 Yoav Goldberg 的那场 NLP 大争论十分引人注目。您如何看待这场争论,特别是深度学习和 NLP 的关系?您支持哪一边的说法?为什么?

Hans Uszkoreit:我认为这场争论被误读了,它不是一场 NLP 领域的深度学习倡导者与怀疑论者之间争执,它不是那样开始的。Yoav Goldberg 不是反对深度学习,他也不是反对深度学习在 NLP 领域的应用。相反,Yoav 大力推动了深度学习在 NLP 领域的应用。

Yoav Goldberg 只是对那篇自然语言生成(NLG)领域的标题党论文表示不满,它只是在吹嘘一些很小的成果。Yoav 的说法并没有错:那篇标题党论文对于 NLG 领域的研究进展毫无意义,它未能解决 NLG 领域所公认的任何问题。

而 Yann LeCun 和 Fernande Pereira 认为他们应该站在论文作者一边的原因,是确实有很多的 NLP 研究者极端怀疑深度学习在语言分析和生成上的作用。LeCun 和 Pereira 把这种怀疑主义视为过时的研究范式反抗深度学习大法的无力尝试。保守派对阵革新派,这是科学革命中的古老游戏。但这绝非是 Goldberg 此次争论的目的。

我个人的看法是:当前的深度学习方法还不足以解决 NLP 领域的核心问题。但它们已经改善并实现了 NLP 技术的很多应用。深度学习此处的不足,并不在于当前所用的各种人工神经网络及其各自的学习算法,而在于我们还没有正确类型与足够数量的语言类标注数据。人类语言和人脑共同进化的方式,是语言能被用来表达信息和知识的同时,还能让儿童用很短的时间就能学会。语言的这种可习得性与基本知识概念的可习得性紧密相连。没有语言就无法学到概念,不与概念想结合也无法学到语言。如果我们可以找出一个能同时教会人工智能语言和概念的方法,问题就解决了。这里的第一步就是基于人工神经网络的可复用知识的机器学习。