语音识别:亚马逊是怎么做到“后发制人”的

亚马逊在苹果、谷歌前找到了语音识别的答案,它是怎么做到的?

两年前,亚马逊经历了一场戏剧性变化——被寄予厚望的智能手机Fire Phone在上市遭遇惨败,几个月后推出的智能音箱Echo却大获成功。亚马逊没有花费太多时间思考,很快作出决定:放弃Fire Phone,押注Echo。一年之后,它收到了Echo结出的成功果实:

- 据研究机构CIRP的统计,Echo上市一年多后,销量已经突破300万台。仅仅是2015年暑假,亚马逊就卖出超过100万台Echo

- 2015年3月-12月,Echo的用户认知度从20%提升至47%。今年6月公开的新销售计划显示,亚马逊计划在2017年卖出第1000万台Echo

难能可贵的是,Echo在实现高销量的同时还保持着出色的口碑——它在亚马逊的页面下拥有超过40000条用户评论,评分达到4.4星。赞美之词不胜枚举。

一 · 语音识别:亚马逊“后发制人”

Echo不是一台传统音箱,亚马逊在里面注入了最新的语音识别助手“Alexa”。除了听音乐,用户还能用Echo叫外卖、打车、安排日程、查询天气——你只需对着它说出命令即可。

智能手机的故事已经基本讲完,行业将迎来人工智能的高速发展。苹果、谷歌(微博)、微软……人们熟知的硅谷巨头都在调转船头,发力人工智能。

语音识别被认为是人工智能的核心应用之一。苹果在亚马逊三年前就推出了智能语音产品;谷歌稍晚,但也比亚马逊早两年。然而现在亚马逊凭借Echo实现“后发制人”,谷歌已经成为它的模仿者。

它是怎么做到的?

二 · 只提供一种交互,迫使用户使用语音

如何让用户使用语音服务?苹果和谷歌采用了相同的方案。它们将语音服务整合进手机系统内,通过高使用频率的手机来带动用户对语音服务的使用。

但问题是,智能手机拥有成熟的输入方案——文字输入法比语音更便捷、更高效,语音服务缺乏足够的使用理由。研究机构Creative Strategies的调查显示,62%的安卓用户表示很少或偶尔使用语音助手,iPhone对应的比例为70%。

为了“迫使”用户使用语音,亚马逊Echo只提供语音一种交互方案。除了扬声器和麦克风,Echo没有其它交互接口。

Echo对交互的限制,保证了语音交互的纯粹性和持续性:用户只能使用语音,不会被其它输入方式带走。当习惯养成后,他们会持续不断地用语音与设备互动。

三 · 定位于家庭,缓解与机器对话的尴尬

只提供语音交互并非Echo成功的唯一因素。如果没有解决用户不愿使用语音的根本问题,这样做可能会带来另一个问题——用户放弃使用产品。亚马逊显然不愿看到这样的结果。

Echo成功的另一因素在于它定位于家居,而非手个人助理。

Siri和Google Now定位于个人助理,于是它们依附于手机,期待通过手机的高频使用普及服务。但手机作为个人设备,多数情况下在公开场合下使用。在公开场合下用语音对手机发号施令,使用者很容易陷入尴尬。

Creative Strategies调查了300名手机用户在公开场合下使用语音助手的比例。结果显示,安卓用户中,只有12%会在公开场合下使用语音助手;iPhone的比例更低,只有3%。

产品和使用场景没有恰当匹配,造成了Siri和Google Now的使用尴尬。

Echo采用了不同的产品定位,巧妙地避开了用户使用语音助手的尴尬。它从一开始就定位于家庭设备——体积较大,不宜随身携带;没有独立电池,必须连接室内电源才能使用。尽管对着机器说话依旧怪异,但家庭环境缓解了用户的使用压力。用户面对的是熟悉的家人而非公共环境下的陌生人。

四 · 提供针对性软、硬件优化,适时开放产品

在明确Echo的交互方式和产品定位之后,亚马逊对它进行了针对性的硬件和软件优化。

为了能让用户在家中的任何位置都能唤醒Echo,亚马逊设计了一个名为ARS的自动语音识别处理系统。ARS由七个麦克风和一个音频信号过滤系统构成。七个麦克风组成的列阵能让Echo捕捉到环境中的细微声音,音频信号过滤系统过滤掉环境噪音,从而辨别出人声。使用ARS后,即使用户在25英尺(7.62米)之外发出命令,Echo也能够准确识别。

亚马逊在苹果、谷歌前找到了语音识别的答案,它是怎么做到的?

(Echo的麦克风阵列)

识别之后,如何理解用户的语音命令?亚马逊又设计了“关键词识别”系统。Echo收到的语音命令被系统拆分为多个字段,它们与云端储存的关键词模型逐一比对,匹配度最高的部分被认为是用户发出的语音命令。

在先后增加对多款智能家电的支持之后,2015年6月,亚马逊推出了语音服务“Alexa”开发包,正式开放Echo。两家为Echo开发音乐播放和家电控制服务的公司还获得了亚马逊提供的1亿美元资金。

开放策略收效显著。2015年,Echo整合的第三方服务只有14项,今年已经上升至950项。目前这个数字在持续增长。

今年3月,亚马逊又推出了两款面向中、低端市场的智能音箱:Tap和Dot。Echo家族的设备和服务在不断壮大。

结语 · 手机红利消失,人工智能将启航

2007年,第一代IPhone推出。在接下来的近十年里,它和安卓至少带动了硬件销售、移动通讯、电商、手机游戏四个领域的发展。移动互联网风生水起。

但高速发展之后,智能手机和它所带动的相关产业都陷入了发展瓶颈。代表性的变化是,iPhone在今年第三季度的销量下降15%,营收同比下滑23%。移动通讯、O2O、手机游戏等领域的格局也已基本确定,市场被大公司把持。

人工智能被认为是下一个科技热潮。语音、图像识别,深度学习等技术将大大拓宽现有技术的应用边界,工业、农业、医疗等互联网化程度低的产业都将被重新改造。

作为核心技术之一,智能语音能够应用于汽车、通讯、企业服务等多个领域,它可以让车主在驾车时与汽车互动,也可以改善智能手表等小屏设备的输入体验……人机交互将因此改变。

Echo让智能语音的发展再进一步。过去几年,苹果、谷歌都推出了自己的语音助手,但它们更多是手机的辅助,目的是让手机更好用。Echo则不同,它完全为语音设计、不依赖手机,同时成功地赶上了物联网繁荣的时期。Echo的成功归功于亚马逊对产品定位、使用场景和市场前景的准确判断,这些经验会让亚马逊在未来人工智能的竞争中走得更加从容。