王小川首秀搜狗语音纠错：突破语音识别最后3%_前沿技术_物联网_中国计算网——工业互联网一站式服务平台—

　　2016 年 7 月 16 日，极客公园“奇点·创新者峰会”在上海召开，包括特斯拉联合创始人 JB Straubel 、超级高铁 Hyperloop alt="物联网" width="550" height="297" />

　　上午压轴出场的搜狗公司 CEO 王小川，发表了人工智能应用主题的精彩演讲《我们应该用 AI 创造什么》，更成为了唯一一位现场进行 AI 技术演示的演讲者。利用搜狗公司的语音识别技术，王小川的演讲内容在现场实时生成了滚动字幕显示，目测准确率高达 95% 以上。同步的字幕引起了现场观众极大的兴趣，纷纷起立拍照。在演讲结束后，现场语音识别成果立刻生成了完整的演讲稿，观众通过扫描二维码即可阅读。

　　王小川现场邀请了一位观众上台体验了搜狗输入法的新功能 “ 语音修改 ” 。用户对着手机说出一段文字后，再通过自然语言的方式将语音识别错误的地方进行修正，赢得了现场热烈的掌声。王小川介绍道;“目前搜狗手机输入法日均语音输入调用次数超过1.4 亿次，是中国最大的语音识别引擎，语音识别准确率已超过 97% 。但当前的人工智能技术仍然无法让语音识别达到 100% 的准确率。对此搜狗开发了语音修改功能，通过自然语言交互的形式修改所输入的文字，比‘将弓长张改为立早章’等，不仅解决了语音识别准确率最后 3% 的差距，同时解放了用户双手，提高了用户输入效率。”

　　在王小川看来，“带着技术找市场”与“找市场时丢了技术”都是不可取的，“ 树根是技术，树干是产品，真正开花结果是最后的市场 ”，当前人工智能企业更重要的任务是抓住市场、深挖技术，创造连接市场和技术的优秀产品，而搜索引擎本身就是这样一种人工智能。搜狗的使命就是让表达与获取信息更简单，真正成为人类生活的助手，而这也是人工智能未来最重要的发展方向。

　　以下为演讲全文：

　　大家好，我本人是人工智能的鼓吹者。在大家谈互联网的时候，我们就开始谈产品;大家谈产品的时候，我们就开始谈技术;大家开始谈技术的时候;我们已经开始谈人工智能。那今天大家都在谈人工智能，我要谈一些什么东西呢?

　　感谢李志飞，其实他的演讲我非常喜欢，我很感谢他把我想讲的东西都已经讲完了，很多理解是一样的。李志飞在最后说，今天没有给大家带来一个演示，搜狗带来了，请看大屏幕!我们预料到了今天网络可能有故障，所以我们把服务器搬到了现场!

　　那么我们在谈人工智能的时候，我会谈一些反思，因为今天大家可能过多高估了人工智能的未来。在今年上半年，我是鼓吹 AlphaGo 这样一场跨世纪的比赛， 4 ： 1 的比分。那么之后就像一场启蒙运动，所有的公司所有的投资把眼光都看向了人工智能，在全球范围内的投资异常地活跃，中国也一样。那在这个时候我更多想谈到，我们得小心什么地方是陷阱，什么地方是真的人工智能的未来?

　　就在前一个月，我去谷歌跟 AlphaGo 的工程师做了深度的沟通。有件事情我得告诉大家， AlphaGo 并没有停止研发，还继续在往前进步。但是我跟他们聊的时候，谈到到今天为止，跟李世乭下棋的第四局，机器还是赢不了。我是非常惊讶的，已经过了3 个月的时间，所以我跟他们说，有什么样的算法可以改进赢得第四局的比赛?谷歌的工程师跟我苦笑，他说你讲的方法我们都试过了。

　　回到我们深度学习。今天大家知道有一个巨大的危险，因为传统做人工智能的专家就在预言，深度学习有一些缺点，稳定性不够，在一些需要可靠性的场景里面，没有完整的数学的计算和证明。所以这种情况里面即便是 99% 的正确性，也可能会带来不确定，比如在无人驾驶，这 1% 的不确定性，就可能带来汽车的失速，而且不知道怎么修正。所以我们今天会知道，深度学习我们认为可以做很多的事情，但是到现在我们人类的技术掌握还是比较浅的。那么我也谈到在语音识别这样的一个话题，今天语音识别已经到了比较高的准确度，已经接近实用，但是其实还是很多的限制。比如说我们需要安静的环境，当有噪音的时候同时有两个人说话机器就搞不定了，我们的办法是，比如说在汽车环境里面，预先录制发动机引擎的声音，或者是噪音加到识别里面去，就把没有见过的环境变成机器能够见过的环境，就能够做识别。

　　但是我跟工程师聊，那其它的环境，如果有两个人说话怎么办?总有一个人的声音是听不到的?我们的解决方案是用麦克风举证，有一种麦克风可以定向识别，如果两个人不同的位置不同的声音，声音的音源可以分离开。人是这样吗?人是靠两只耳朵定声音吗?如果只有一只耳朵，或者两个人在同一个方向说话会怎么样?人是能识别的对吧?机器就做不到了。所以我在这张图里面跟大家演示，我也问了搞神经科学的人，他们说人跟机器有本质的区别，如果两个人说话的时候位置不一样，人可以分离开，如果位置一样，一个人声音大，一个人声音小也能分开。如果两个人的声音一样大，一个是男声，一个女声也可以分开，如果都是男声，但一个人说中文，一个人说英文也能分开。所以人是在一个环境当中，只要能够找到一线机会，把两个声音的不同找到一个特征，就能动态地去分离。但对不起，今天在全球范围内，我们号称在语音识别有重大的各种各样的突破，还是解决不了这样的问题，所以我们知道今天的计算机离人还有巨大的距离。

1/3 1 2 3 下一页尾页