语音识别不好用?因为它还是个孩子啊!

  口音对语音系统来说是个难题

  这年头,什么都系不带上智能元素,似乎都卖不出去了,就算再高端的家居互联系统,如果不带语音控制,照样像段子里如来嘲笑玉皇大帝那样被嫌弃。语音识别、语音控制对我们大家来说都不算新鲜的东西,但这一功能现在更多的功能还是为了提升产品的逼格,而真正得到使用的少之又少。究其原因,还是不好用。

  

口音对语音系统来说是个难题

 

  语音识别功能被广泛普及 但使用者少之又少

  智能生活、智能人机交互的理念在很早之前就被提出,甚至在不少影视作品中都出现了能够直接通过语音控制的设备、系统,尤其无论使用者在多么嘈杂的环境中,语音识别系统都能快速、准确的识别使用者的语音。

  

口音对语音系统来说是个难题

 

  电影中的人工智能无论是对话还是讲笑话无所不能

  那么,我们现在的语音识别技术发展到了什么程度?现在确实有非常多的智能设备都使用了语音操控的功能,但是无论是苹果的Siri还是亚马逊的Alexa,亦或是各家厂商推出的智能设备,在宣传自己产品时都宣称自己的语音识别系统识别率多高,内置了多少种语言,但在用户使用时,会非常普遍的出现无法识别的问题。并且这一问题出现的范围非常广泛,不仅仅只发生在小厂家身上,前段时间一个美国用户向亚马逊投诉Alexa系统,原因是Alexa无法识别她母亲稍带口音的英文。

  

语音识别不好用?因为它还是个孩子啊!

 

  “罪魁祸首”Alexa

  为了验证这个问题,笔者在办公室里请同事们用方言、外语无限轰炸笔者的苹果Siri,发现在设定普通话后,Siri完全无法识别各种方言,无论是闽南语、四川话、粤语甚至连与普通话非常相近的北京话也无法有效识别,就更不要提其他语种的语言了。

  那么,为什么本应该非常好用的语音识别系统变得这么弱?最主要的原因就是,方言和口音太多了,我们先不说外语语系里都有多少种方言,就说中国就有多少种方言?如果是与普通话比较相近的方言还好,真遇上如闽南语、绍兴话、马鞍山话之类比较难懂的方言,什么样的语音识别系统都没办法。

  

语音识别不好用?因为它还是个孩子啊!

 

  从“倒鸭子”上就能看出口音对语音识别系统的影响

  即使语音识别系统想收录这些方言也不是一件简单的事儿,毕竟方言种类真的很多,光是大的语言分类就有官话、晋语、湘语、赣语、吴语、闽语、粤语、客语八种,每种大类方言下面又有多种区域性的方言,还有一些因为族群迁移与地方方言结合的变种方言,单从数量上来讲,收录这些语言就是一项非常庞大的工作。但如果硬性要求所有的用户都说普通话,也是比较不现实的,首先中国普通话多少年了?在北京的街头上依然能听到各种各样的方言。另外,学习普通话,对于年轻人来说可能不是什么太大的问题,对于年龄稍大一点的用户来说,重新学习一种新的语言完全不现实。

  陷入两难境地的语音系统

  从用户使用的角度来说,现有的语音识别系统存在较大的矛盾,年轻人能够比较快的接受新生事物,对新出现的智能产品、系统能够以较快的速度接受,语音识别系统对他们来说只是一种让操作更加快捷或更加节省时间的操作模式。而年龄较大的用户,他们并不能较快的接受新的智能产品,在操作时会遇到各种各样的问题(各位想想,父母有没有在我们回家的时候举着手机说有什么功能不会用了,让我们教他们用),他们会更加希望依赖操作和理解起来都比较简单的语音操作。但是上边我们也说过了,这些年龄较大的用户在学习普通话这件事上同样困难重重,所以本应非常好用的语音系统对于他们来说同样不好用。