百度首席科学家吴恩达:语音识别将会推动物联网革命

 

  在中国,我们其实在一些领域是比较领先的,甚至领先于世界很多其他先进国家。HPC到深度学习的跳越,而其他国家也确实进行大量的投资,这也是需要我们注意的。使用这些火箭引擎,再做一个类比,我还想给大家举一个这样的例子,看我们究竟能做什么。比如说计算机系统对人脸的识别,这对我们来说也是比较重要的计算机应用。比如针对安全的目的,还有保安的目的,这都是在未来会越来越多的应用。大家对这张脸都很熟,美国着名的影星,通过人脸识别可以告诉我们是同一张脸,这当然是最佳的结果,不同的组织使用不同的技术,他们得到的结果也是不一样的,这是因为有时候这个软件的计算也会发生不同。

 

  我希望大家参考一下这个柱状图就可以了解相关的计算结果了,我们是这周才宣布我们能够在这方面表现得比其他大多数公司都要好。谢谢大家鼓掌鼓励!

 

  和其他公司相比,比如说和谷歌、脸书相比,谷歌和脸书的火箭燃料比我们多,也就是他们的数据比我们多。但是我们在发动机上的投资比他们多,我们在发动机上的投资多给我们带来巨大的好处。我们在发动机和燃料的比例方面要做得好才能确保这是一个好的火箭,我们正是在发动机方面进行大量的投资。所以我们才在人脸识别领域和其他领域比其他国际上领先的大公司要做得好。我们在人脸识别只有0.3几的错误率,大家可以看到我们的比例多么高,我给大家演示一下我们所发生的错误。看一下这张脸,你觉得哪两张脸是动一个人的脸,还是都不同的?比如说在左边的女人的脸,和其他哪张脸是相同的,大家能告诉我吗?我们所犯的9个错误,其实就是发生在这里面,这些都是一个人,大家根本想象不到,他们都是一个人,发生错误可能是数据的关系,不是我们自身的关系。而下面是不同的人,大家能看出来了。我刚才提到了识别,像咖啡杯,还有人脸的东西,除了这些电脑能够做的事情,还有很多,它能够理解图片还有很多,如果我们能够在这方面做得很好的话,这张图片能够告诉我们很多东西。比如我们看左边,如果要求你写字幕的话会怎么写呢?你可能会写有一辆黄色的车在路上开着。如果要为右边的图片写字幕的话会怎么写呢?你可能会写起居室充满了下午的阳光。这个还不够充满激情,我们还可以通过深度学习让你了解更多的信息来写一篇更有吸引力的字幕。

 

  一个计算机能不能了解你我了解的图片信息呢,或者能不能像人脑一样工作了解我们想了解的信息呢。可能结果是非常让大家吃惊的。现在我在图片上显示的字幕并不是人写的,而是机器写的,这就是我们百度可以提供的技术,也是我们起步的技术。而其他公司甚至还没有搞清相关的概念,他们有一个笼统的想法要提高电脑图像的识别,在过去几年,具体来说大概三年的时间内,计算机图像的技术发展非常迅速,现在计算机在图像识别上,比更多年以前要做得好得多。现在很多计算机公司甚至比很多人脑眼睛一眼看上去了解的信息还多。我们有一些想法、有一些产品,也有一些技术,我想说的是这些技术给我们开启了无限的可能,可以使我们来了解一下哪些产品领域是大有可为的。我们可以在图上了解一些相关的领域,比如百度还有其他的搜索引擎正在做的事情。我不知道一个非常清晰的路线图是怎样的,或者哪个领域会发展得更加迅速。

 

  比如百度在衣服的搜索方面做很多东西。还比如对老年人的照顾方面,我们也做了一些探索,因为中国现在面临人口老龄化的问题。还有在可穿戴设备方面也有一些新的举措。我们希望在这些新领域的探索开启更多的机会,使我们可以创造更大的产业。

 

  来看一下计算机的发展,我想跟大家分享一下第二个领域语音识别方面我们做的东西。在移动互联网方面,大家对互联网的使用,对手机的使用越来越多的结合起来。我们过去是用键盘,包括手机键盘来敲字,这是比较浪费时间的,大家现在用话音来进行沟通,所以语音识别是一个非常重要的发展方向。大家可以试一下百度上面有相关的应用,现在已经做得比较好了。而大家现在普遍反应在手机上进行语音通信的时候,如果手机离得比较远的话效果不是很好,要比较近的时候语音识别才做得比较好。我们在相关的IT技术方面也做一些探索,从传统领域来看,这是语音识别所做的事情,基本上所有做语音识别的公司都是使用非常复杂的管道。我们来改善它的话音系统,突出声音特征,有一些不同的模块,不的的模块组合起来识别这个人到底讲了什么。