在人工智能爆发前 带你走近它的背后推手

图2

图3

20年来,在原理变化不大的前提之下,应用开发进展却极其迟缓,其原因在于,此前无论是人脸图像数据库的规模,还是计算能力本身,都只能用“贫瘠”来形容。

供研究的人脸图像数据库为何不足以支持任何形式的技术突破?有数字为证:1990年前后,ORL人脸库、E yale B耶鲁实验室和AR人脸库中的人脸原型样本人数少于130人,首选识别率在95%-99%的范围内;直到2007年,LFW(Labeled Face in the Wild)人脸库中也仅有5749位明星的13233张图。

在一些拥有大规模数据资产的IT领袖企业加入人脸识别研究阵营后,这种情况才得到了显著改善。2014年,Facebook的DeepFace人脸库包含了4030位样本人物的4400万张图,算法方面由多达8层网络、1.2亿训练参数的系统来支持。而谷歌的FaceNet数据库规模更大,容量为来自800万样本人物的2亿张图像,以及22层深度网络与1.4亿参数的算法系统。在此方面国内公司也不逊色,有公司已搭建出多达7000万名样本人物(每人1张证件照、1张生活照)的图像库,以30层以上深度网络、20块NVIDIA M40 GPU训练6天,取得了相当不错的成绩。

多大规模的数据才算是大数据?当数据多到可对几乎整个样本空间进行充分覆盖,从而减弱对理论与模型的依赖时,这样的数据就足够“大”了。像预测投掷硬币这种问题,样本空间为{0, 1},1000个样本就算是大数据,就足以得到置信度较高的预测。而对机器翻译、图像识别这样的课题而言,样本空间的数量级就大得太多——去年年底召开的第六届ImageNet图像识别大赛上,微软团队设计的图像识别系统击败了Google、英特尔、高通等强大对手,取得了多项第一名。据我所知,微软训练其图像识别系统是使用了152层深度网络。这提示了我们如何推进研究:传统方法是少量数据+复杂模型,到一定阶段后,系统性能便很难再提升;有了大数据之后,业界使用海量数据+简单模型也能获得比传统方法更好的结果;接下来,当海量数据与复杂模型相结合,应该可以创造出最佳的训练结果。

由上述案例也可以看出,学术界的算法与系统的实操水平与工业界的差距较大,学术界对应用性能的理解水平与工业界差距亦大——一直以来,在人脸识别领域,工业界的应用任务有两个模式:1:1也即两张人脸二选一辨认、1:N也即多张人脸N选一辨认。在各种测试条件下,企业已做到:处理1:1任务时,性能达到误报率百万分之一以下;处理1:N任务时,性能已实现在N等于千万级查询的条件下,首选命中率约90%。也正因工业界的介入,两年前,机器识别人脸的能力已超人类。类似美剧《疑犯追踪》里人脸识别的场景随时会成为现实。

在推进技术实用化、主流化方面,工业界比学术界的效率高很多,这并不难理解——不仅是因为前者的资金充裕,更重要的是,工业界在获娶储备、利用用户数据方面较之学术界优势明显,而且像Facebook、谷歌这样的巨头,可以使用几乎无限制的云计算资源来加速研发进程。

云将越来越重要

我的前同事,图灵奖获得者、数据库大师吉姆·格雷在他的大作《第四范式:数据密集型科学发现》中对科学发展的范式有着非常精辟的总结:千年以前,科学是基于简单的实践经验来描述现象。过去的几百年里,科学家们开始尝试开辟学科与理论分支,建立和使用模型来概括现象。最近的几十年,新生的计算分支以计算来模拟复杂的现象。而今则是靠大数据来探索现象。

计算资源从端向云汇集,这为算法创新和大数据应用创造了无尽的可能性——过去五年来,我们见证了云计算是如何推动消费级产品与企业级产品领域的伟大创新,见证了云计算是怎样从一个被过度炒作、被无端怀疑的概念逐步成长为整个IT产业乃至各行各业的基础平台,见证了云计算支持下的技术(如AI、VR、AR等等)爆炸与应用模式(如游戏、O2O、直播等等)革新。

今后十年,整个中国IT产业成长速度最快的,很可能会是云计算公司。回顾以往,从新生力量迅速成长为巨头的美国公司只有一家,那就是专注于云计算的AWS(如图4),其发展轨迹几乎与从事ToC业务的Facebook重合。况且,与发展更快、成熟度更高的美国市场相比,中国云计算市场仍处在从爬坡式渐增到直升式激增的进化节点上(如图5)。