AI那些坑:更好的技术为何却产生更糟糕体验?

从今年看,语音将成为科技界的“重头戏”。亚马逊可能已经售出了1000万部智能音箱Echo。在CES上,Alexa的合作伙伴几乎随处可见。谷歌也已经有了自己的类似产品,而且看起来,它正成为一个新的平台。语音领域的爆炸式增长有几个不同的原因,还有几个问题。

首先,让我们看看原因。第一,语音是非常重要的领域,因为语音输入的工作方式直到最近才开始取得突破。在过去的几年里,机器学习的进步意味着计算机在识别人们的话语方面正变得越来越好。从技术上讲,这里有两个不同的领域:语音识别和自然语言处理。

语音识别是把音频转换成文本,而自然语言处理则是接受这样的文本,并找出其中的指令。自2012年以来,这些任务的错误率已经从33%降低到不足5%。换句话说,大多数情况下,语音输入过去并不好用。即使现在,它依然不够完美,正常使用下,5%的错误率可能是你每天都会遇到的事情,Twitter上到处都是语音助理根本无法理解语句的例子。但这种情况正在持续改善。

第二,智能手机的供应链意味着,制造带有麦克风、快速CPU和无线芯片的盒子要容易得多。2016年共销售出15亿部智能手机,市面上有越来越多、越来越便宜的零部件,它们都是为这个市场大规模生产的,但它们也可以被用于其他方面。与此同时,以深圳为中心的智能手机和消费电子产品的专家和代工制造商的生态系统,不仅意味着你能得到这些零件,还能让别人帮你把它们组合起来。硬件仍然很困难,但其实并不像想象中的那么难。所以,如果你想要一个神奇的声音盒,并打算借助智能手机供应链,你就可以制造一个。

第三,主要的互联网平台公司(谷歌、苹果、Facebook、亚马逊或者GAFA)的收入可能是20世纪90年代Wintel(微软+英特尔)的10倍,后两者也曾是改变世界的公司。因此,它们有更多的钱(以及人员和分配)可以用于投资有趣的项目。

第四,智能手机并不是桌面网络浏览器那样的中立平台,苹果和谷歌几乎已经控制了移动互联网,而微软从来没有在桌面互联网上做到这一点。这让互联网公司感到不安,它让谷歌对苹果感到紧张(这也是它收购Android的原因之一),而亚马逊和Facebook都对这两者都感到紧张。他们想要自己的消费平台,但直到现在依然还没有。这也是Kindle Fire、Alexa、Facebook Messenger聊天机器人和其他各种项目背后的重要驱动因素。

所有这些都增加了动机和机遇,然而这并不一定意味着语音“有效”,或者更确切地说,我们需要更具体地说明“有效”的含义。所以,当我说语音输入“有效”的时候,这意味着你现在可以使用音波形式来填充对话框,你可以把声音变成文本(从音频、聊天机器人等),并将文本变成结构化的查询,你还可以找到发送那个查询的地方。

问题是,你可能没有任何地方可以发送它。你可以用语音来填充对话框,但是对话框必须存在,你需要首先把它建立起来。你必须开发出航班订票系统、餐馆预订系统、排班系统、音乐会预订系统以及用户可能想要做的任何事情的系统,然后才能把语音与它们联系起来。否则,如果用户要求提出要求时,你可能准确地将他们的声音转化为文本,但却不能用它做任何事情,你所拥有的只是一个转录系统。

问题在于,你能构建多少这样的查询?你需要多少?你能把它们直接扔到网上搜索,或者你需要(更多)吗?机器学习意味着我们能够使用大量的数据来生成可理解语音和自然语言模型,而不用依赖手工编写语音和书写规则的老方法。但我们没有相应的方法使用数据来构建所有你想要连接的查询,所有的对话框,你还是要用手来做。你已经用机器学习来做一个专家系统的前端,但是专家系统仍然是一个预先数据、手工制作的模型。

虽然你可以用API和开发者生态系统来回答0.1%的问题,回答1%的问题(夸张的说),但仍然有99%的错误率。这是不可能的。从根本上说,你不可能对所有可能的问题做出回答。任何人类可能会问的问题,我们也没有办法通过机器来解决。如果我们这样做了,我们就会有人工智能,基本上是按照定义,那是几十年后的事了。换句话说,许多语音用户界面陷入的陷阱是,你假装用户在与HAL 9000进行对话,但实际上,你刚刚建立了更好的IVR,而且不知道如何从IVR变成HAL 9000。