王小川首秀搜狗语音纠错:突破语音识别最后3%

  2016 年 7 月 16 日,极客公园“奇点·创新者峰会”在上海召开,包括特斯拉联合创始人 JB Straubel 、超级高铁 Hyperloop alt="物联网" width="550" height="297" />

  上午压轴出场的搜狗公司 CEO 王小川,发表了人工智能应用主题的精彩演讲《我们应该用 AI 创造什么》,更成为了唯一一位现场进行 AI 技术演示的演讲者。利用搜狗公司的语音识别技术,王小川的演讲内容在现场实时生成了滚动字幕显示,目测准确率高达 95% 以上。同步的字幕引起了现场观众极大的兴趣,纷纷起立拍照。在演讲结束后,现场语音识别成果立刻生成了完整的演讲稿,观众通过扫描二维码即可阅读。

  王小川现场邀请了一位观众上台体验了搜狗输入法的新功能 “ 语音修改 ” 。用户对着手机说出一段文字后,再通过自然语言的方式将语音识别错误的地方进行修正,赢得了现场热烈的掌声。王小川介绍道;“目前搜狗手机输入法日均语音输入调用次数超过1.4 亿次,是中国最大的语音识别引擎,语音识别准确率已超过 97% 。但当前的人工智能技术仍然无法让语音识别达到 100% 的准确率。对此搜狗开发了语音修改功能,通过自然语言交互的形式修改所输入的文字,比‘将弓长张改为立早章’等,不仅解决了语音识别准确率最后 3% 的差距,同时解放了用户双手,提高了用户输入效率。”

  在王小川看来,“带着技术找市场”与“找市场时丢了技术”都是不可取的,“ 树根是技术,树干是产品,真正开花结果是最后的市场 ”,当前人工智能企业更重要的任务是抓住市场、深挖技术,创造连接市场和技术的优秀产品,而搜索引擎本身就是这样一种人工智能。搜狗的使命就是让表达与获取信息更简单,真正成为人类生活的助手,而这也是人工智能未来最重要的发展方向。

  以下为演讲全文:

  大家好,我本人是人工智能的鼓吹者。在大家谈互联网的时候,我们就开始谈产品;大家谈产品的时候,我们就开始谈技术;大家开始谈技术的时候;我们已经开始谈人工智能。那今天大家都在谈人工智能,我要谈一些什么东西呢?

  感谢李志飞,其实他的演讲我非常喜欢,我很感谢他把我想讲的东西都已经讲完了,很多理解是一样的。李志飞在最后说,今天没有给大家带来一个演示,搜狗带来了,请看大屏幕!我们预料到了今天网络可能有故障,所以我们把服务器搬到了现场!

  那么我们在谈人工智能的时候,我会谈一些反思,因为今天大家可能过多高估了人工智能的未来。在今年上半年,我是鼓吹 AlphaGo 这样一场跨世纪的比赛, 4 : 1 的比分。那么之后就像一场启蒙运动,所有的公司所有的投资把眼光都看向了人工智能,在全球范围内的投资异常地活跃,中国也一样。那在这个时候我更多想谈到,我们得小心什么地方是陷阱,什么地方是真的人工智能的未来?

  就在前一个月,我去谷歌跟 AlphaGo 的工程师做了深度的沟通。有件事情我得告诉大家, AlphaGo 并没有停止研发,还继续在往前进步。但是我跟他们聊的时候,谈到到今天为止,跟李世乭下棋的第四局,机器还是赢不了。我是非常惊讶的,已经过了3 个月的时间,所以我跟他们说,有什么样的算法可以改进赢得第四局的比赛?谷歌的工程师跟我苦笑,他说你讲的方法我们都试过了。

  回到我们深度学习。今天大家知道有一个巨大的危险,因为传统做人工智能的专家就在预言,深度学习有一些缺点,稳定性不够,在一些需要可靠性的场景里面,没有完整的数学的计算和证明。所以这种情况里面即便是 99% 的正确性,也可能会带来不确定,比如在无人驾驶,这 1% 的不确定性,就可能带来汽车的失速,而且不知道怎么修正。所以我们今天会知道,深度学习我们认为可以做很多的事情,但是到现在我们人类的技术掌握还是比较浅的。那么我也谈到在语音识别这样的一个话题,今天语音识别已经到了比较高的准确度,已经接近实用,但是其实还是很多的限制。比如说我们需要安静的环境,当有噪音的时候同时有两个人说话机器就搞不定了,我们的办法是,比如说在汽车环境里面,预先录制发动机引擎的声音,或者是噪音加到识别里面去,就把没有见过的环境变成机器能够见过的环境,就能够做识别。

  但是我跟工程师聊,那其它的环境,如果有两个人说话怎么办?总有一个人的声音是听不到的?我们的解决方案是用麦克风举证,有一种麦克风可以定向识别,如果两个人不同的位置不同的声音,声音的音源可以分离开。人是这样吗?人是靠两只耳朵定声音吗?如果只有一只耳朵,或者两个人在同一个方向说话会怎么样?人是能识别的对吧?机器就做不到了。所以我在这张图里面跟大家演示,我也问了搞神经科学的人,他们说人跟机器有本质的区别,如果两个人说话的时候位置不一样,人可以分离开,如果位置一样,一个人声音大,一个人声音小也能分开。如果两个人的声音一样大,一个是男声,一个女声也可以分开,如果都是男声,但一个人说中文,一个人说英文也能分开。所以人是在一个环境当中,只要能够找到一线机会,把两个声音的不同找到一个特征,就能动态地去分离。但对不起,今天在全球范围内,我们号称在语音识别有重大的各种各样的突破,还是解决不了这样的问题,所以我们知道今天的计算机离人还有巨大的距离。