语音识别距人类只差0.4%?

语音识别距人类只差0.4%

 

  日前,美国一家公司宣称专业速记员在记录对话时,转录词错率为5.1%,而该公司最新研发的语音识别系统词错率已达到5.5%,超越之前的历史最佳水平,树立了新的里程碑。语音识别,是人工智能领域的核心问题之一,0.4%的差距似乎意味着机器即将比肩人类。

  已过“甲子”之年

  斯坦福大学的相关研究者在2016年9月发布了一篇名为《2030年的人工智能与生活》的文章,提到:人工智能领域正式诞生于1956年夏天,一场由约翰·麦卡锡组织的在美国达特茅斯暑期研究项目的研讨会,在多年以后被认定为全球人工智能研究的起点。

  其实,对于人工智能子项目之一的语音识别来说,它的历史甚至比60年还要久。

  语音识别的研究源头可追溯至1950年,计算机科学之父阿兰·图灵在《思想》(Mind)杂志上发表了题为“计算的机器和智能”的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了,这就是后来鼎鼎有名的人工智能图灵测试。

  图灵测试的概念极大影响了人工智能对于功能的定义,以此为途径,卡内基梅隆大学的两位科学家希尔伯特·西蒙和曼纽尔·布卢姆做了大量的前期工作,非常精妙地证明了罗素《数学原理》52道中的38道。西蒙甚至宣称在10年之内,机器就可以达到和人类智能一样的高度。

  在这一时期,科学家们也将语音识别比作“机器的听觉系统”,该技术可以让机器通过识别和理解,把语音信号转变为相应的文本或命令。1952年,贝尔研究所、Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年,英国的Denes等人研制了第一个计算机语音识别系统。

  从“模拟”人脑到开创统计方法

  当20世纪50年代明确了人工智能要模拟人类智慧这一大胆目标后,这一领域经历了近20年的辉煌。研究人员开展了一系列项目,表明计算机能够完成一系列原本只属于人类能力范畴之内的任务,例如证明定理、求解微积分、通过规划来响应命令、履行物理动作,甚至是模拟心理学家心理实验、作曲家谱曲这样的活动。

  但是,过分简单的算法以及计算能力的限制,严重阻碍了人们使用人工智能来解决更加困难和多样化的问题。

  这一阶段在人工智能的细分领域语音识别上,科学家们也走上了同样的弯路。他们认为,计算机要完成语音识别这类只有人才能做的事情,必须先让计算机理解自然语言,导致研究局限在人类学习语言的方式上了,即电脑模拟人脑,语言学者参与了大量的研究工作,但最后的成果却近乎为零。伴随着对未来继续努力的失望,人工智能包括语音识别都于20世纪70年代中期逐渐淡出公众视野。

  转机出现在统计语言学的创立上。这不得不提一个关键性人物——德里克·贾里尼克和他领导的IBM华生实验室,他们创新的使用统计方法,将当时的语音识别率从70%迅速提升到90%,同时语音识别的规模从几百个单词上升到几万个单词,使得语音识别就有了从实验室走向实际应用的可能。

  在贾里尼克之前,科学家们都把语音识别问题的核心归结为语言学中的规则问题,而贾里尼克将它当作通信问题后,用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别重新概括清楚了。

  这个框架结构至今仍对语音识别影响深远,它不仅从根本上使得语音识别有使用的可能,而且奠定了今天自然语言处理的基础。贾里尼克后来也因此当选美国工程院院士,并被某杂志评为20世纪100名发明家之一。

  尽管贾里尼克在1972年就提出了新的研究范式,但模拟人脑与统计学的方法之争,却持续了近十五年时间,语音识别领域历经了十五年的新旧交替后,最大的成果其实是在技术的应用及产品化方面出现了进展。

  大进步的催化剂

  在互联网大爆发的20世纪90年代,人工智能的相关研究又一次停滞了。直到21世纪前10年,出现了一系列复兴人工智能研究进程的要素,尤其是下面这些重要的因素和核心技术: