AI那些坑:更好的技术为何却产生更糟糕体验?

鉴于你无法回答任何问题,还有第二个问题,用户知道他们能问什么吗?我怀疑语音用户界面的理想功能实际上遵循着U型曲线:一个指令很好,回答10个问题可能是可以的,但50或100个就会很糟糕,不是你不能问任何问题,而是你自己可能都不记得自己问了些什么。当你越来越接近一个能够回答任何问题的系统时,曲线的另一端就会出现,不过这也会产生人工智能。

有趣的是,尽管有足够的资金和足够的开发人员,你或许可以建立一个系统,能够回答成百上千个不同的问题,但这实际上可能会适得其反。对此有人进行反驳称,一些大型平台公司(比如谷歌、亚马逊,或许还有Facebook)已经拥有大量用户,他们在搜索请求时输入自然语言进行查询。如今,他们通过返回搜索结果页面来回答这些问题,但他们可以利用这条曲线的头部,为前100或500种最常见的请求类型构建结构化的响应这就是谷歌的知识图谱。所以,这并不是说用户必须知道他们能问的50件事,但是对于前50种(或500种)类型的问题,他们现在能得到更好的回答,远比仅仅一页链接更好。

显然,这在屏幕上可以很好地工作,但在音频设备上却失败了。不过从更广泛的角度来看,这种做法如何在实践中发挥效果实际上属于分配问题可能有半数问题属于谷歌已经构建了结构化响应的前500种类型,但我每天问Google Home的问题中,有多少包含在这500种类型中,又有多少我无法得到答案?这往往让许多大多数公司得出结论:为了让声音工作得很好,你需要一个狭窄的、可预测的领域。你需要知道用户可能会问什么,用户也需要知道他们能问什么。

这是Siri的结构性问题,无论语音识别部分的效果如何,你都能问出20个问题,但苹果却给了人们一种印象,即你可以问任何问题,所以当你问某些不在列表上的东西时,电脑往往无法给出答案。相反,亚马逊的Alexa似乎在沟通你能做什么和不能问的问题上做得更好。其他狭窄的领域(酒店房间、音乐、地图)似乎也很有效,因为你知道你可以问些什么。你必须选择一个你无法衡量的领域。

与此同时,对于某些任务来说,语音不一定是正确的界面,即使我们确实拥有HAL 9000这样的系统,而且所有扩展性问题都得到了解决。即使是一个真正的人,通过电话预订航班或预订酒店,也会遇到错误的用户界面。在一个IVR上买衣服也会是很糟糕的经历。所以,也许语音面临的问题不只是人工智能还不够好,还因为人类的声音也太有限了。

你可以通过添加屏幕来解决这个问题,就像亚马逊的Echo那样。但是,你也可以添加一个触摸屏,以及一些不同服务的图标。你可以把它叫做“图形用户界面”,或者让声音成为可选的部分。当我围绕这个问题进行讨论时,我发现将Alexa和苹果手表Apple Watch进行比较是很有用的。它们都不会做你在在手机上无法做到的事情,但他们会把它移到另一个不同的环境中,他们会用更少的摩擦来做,只要你还记得。

比如,当你站在厨房里的时候,使用Alexa或智能手表做事或定时时,你就会遇到更少的摩擦。你必须改变自己的思维模式,告诉自己如何实现某件事,而某件事是简单的、几乎是反射性的任务,你已经有了肌肉记忆来把你的手机拿出来,那么这个新设备能打破这个习惯,形成新的习惯吗?一旦习惯或意识出现,在某些事情上,语音助理或手表比掏出手机要好得多,但这个习惯必须先被创造出来。

通过扩展,可能存在更适合语音用户界面的行为,不是因为它们更容易构建,也不是因为这个命令在统计上更有可能被使用,而是因为心智模型更有效,打开灯光、音乐(Echo的一个关键用例),或者是一个比处理预约更重要的计时器。也就是说,一种设备可以做一件事,并且有一个指令,这可能是最适合语音的,尽管理论上它是完全没有限制的。

我认为,这里存在一种矛盾。从概念上讲,语音用户界面看起来是比智能手机更不受限制、更通用的界面,但实际上它们更狭窄、更单一。他们的摩擦比掏出手机、打开手机、下载应用等等都要小,而且只有当你改变了你的思维模式时,它们才会这么做。它们看起来就像智能手机的未来,但在它们(必然)封闭、锁定的本质上,它们看起来也很像功能手机或航母甲板。