诱人的Siri 开启人机交互的大门

例如,当你询问某个酒店在哪里时,Google的网页搜索和地图搜索就会派上用场;当你要询问NVIDIA是什么时,维基百科的信息就会被直接调用;而你要了解附近哪些餐馆各自有什么特色时,谷歌和Yelp就会同时起作用。

总体来说,Siri不是某一种独立的技术,而是将若干现有技术进行了整合。这些技术并非革命性的,但当它们整合后,在用户面前就展现出了神奇的一面。

诱人的Siri 开启人机交互的大门
语音人机交互的技术模型

为什么是手机

如果你比较喜欢研究各种计算技术,以上技术你应该不会陌生。说白了,很多人都或多或少地用过以上提到的技术,只是因为停留在应用层面,没有把它们技术化罢了。无论是语音识别、语音合成,还是各种后台计算技术,其实PC上都有。那么,为什么它在智能手机上一炮而红?

整合,是一个原因,也是很重要的原因。在目前的科技公司中,对技术分类得非常详尽,每个公司都在某一个领域钻研得非常深,但想到要把它们整合起来的公司并不多。Siri做到了,乔布斯看到了,并把它收购了,专为自己所用(再次赞一下已逝去的乔布斯的眼力)。

另外,“给出回应”也是重要原因。其实语音识别并进行相应的动作,这一点很多厂商都在做,也有很多产品。例如桌面Windows系统和Windows Phone系统上就有语音控制和语音搜索功能。但是它缺乏智能的语言反馈,更没有想到要把这种反馈合成为诱人的人声来回应用户——这两点中,语音合成技术不算难,但很多厂商都没想到。

最后,也是最关键的原因:智能手机是随身携带的。它的硬件虽然已经“PC化”,比较强大,但输入依旧是个麻烦事儿,而基于语音的交互恰好是最理想的解决方案。另外,智能手机还有很多PC不具备的特性:例如地理位置定位、联系人列表、人们总是通过它在移动中解决问题。这些,也都为语音交互提供了更多更丰富的功能点。这一切因素的整合,促成了Siri,也促成了她在智能手机上的一炮而红。

 

不只是手机:从PC中来到PC中去

有一点是不言而喻的,随着Siri的出现,下一波智能手机的应用热潮肯定是人机交互应用了。《会说话的汤姆猫》这类变声软件将迅速沦为小儿科(其实它本来也是小儿科)。会有越来越多的“Siri”涌现。

实际上正如前文所述,目前黑客们已经在忙着将Siri移植到其他iOS系统移动设备上,例如iPad,但目前能够完成移植,Siri却还无法连接服务器(云端),也就是说基本不可用。但我们相信,这种应用一旦出现,就会有大量的开发商蜂拥而至。在Android上、在Windows Phone上,也会涌现类似的应用。事实上我们有理由相信,具备人机交互功能的语音助手将成为未来智能手机能否成功占领市场的关键点之一。

不过,我们认为Siri开启的,不仅仅是手机应用的新篇章,而是整个PC应用的新篇章(其实,智能手机也算是PC——个人电脑的一种形态)。未来,在平板上,在上网本上,在Ultrabook上,在传统笔记本上,在一体机和台式机上,甚至在工作站上,基于语音的人机交互系统将大放异彩。

这样说是有根据的,首先,在微软全新的手机操作系统Windows Phone上,已经有了语音控制。而Windows 8和Windows Phone 8的统一,也会让语音控制更加普及。而且,在PC端长期以老大自居的微软肯定不会坐视苹果借Siri霸占手机市场,肯定会对现有的语音控制进行改良做到人机交互。在未来的Win8和Windows Phone 8上,语音人机交互是完全有可能出现的。

而且,前面说了,Siri整合的技术,实际上是各种现有的,基于PC开发的技术,每个独立的技术都在PC端有独立的应用。Google的搜索大家都异常熟悉了;维基百科、百度百科用过的人也不在少数;大众点评这类网站也是非常热的。语音控制电脑操作也已相当成熟(见注解1),只是由于缺乏足够的吸引力和宣传,用者寥寥罢了。只要做好自然语言的识别和理解,加上云端的自然语言知识搜索系统,以及语音合成回馈技术,这些来自于PC,经整合后在智能手机上大放异彩的技术,完全可以再回到PC中,在性能强大得多的PC上扮演更具诱惑力的个人语音助手,甚至是“商务助手”、“办公助手”、“专业设计助手”等各种角色。我们甚至可以期待数字家电成型后,通过语音助手控制电脑,进一步完成对所有家电的控制。想远点,或许几年后,我会对着电脑说:请帮我关闭家里的电视,另外缴纳上两个月的电费,同时预订下午2点使用会议室,另外在下午5点30分给家里打电话告诉家人我加班不回家吃饭,并在最近的必胜客帮我订一块肉香满溢披萨上门”。我的电脑就会联合手机,完成我所有的安排,并自动询问我披萨送上门的时间,还自动将缴费发票信息提交到我的电脑屏幕上……