揭秘霍金30年来的一个担忧:解决理论物理之后,机器人会淘汰物理学家

12月20日的上海,寒气袭人,在虹桥吴中路1189号的五楼会议室,站在一块投影屏和白板之间的Alan Yuille教授,手托腮,若有所思。在他面前的是慕名而来、经过遴选的来自清华、浙大高校具有计算机相关背景的40多名学生。因为Alan教授在霍金的指导下获得了理论物理博士学位,同时又是计算机视觉领域顶级学者。

在他的学生Leo Zhu(朱珑,依图科技创始人)的邀请下,他不远万里来到中国,开启为期两天的计算机视觉课程。Alan教授有着满头的银丝、深陷的眼眶和苍白的面容,看上去就像个普通的白人老者,但却在知识的深度和广度上异于常人—拥有数学、理论物理、计算机、心理学、精神病学和生物行为学等领域深厚的研究背景。

此后,Alan教授开始将兴趣转向人工智能,主要钻研其分支领域计算机视觉(Computer Vision),先后就职于MIT人工智能实验室、哈佛大学计算机系,现任职于UCLA统计系,也是UCLA视觉识别与机器学习中心主任。三十年来,Alan教授涉足计算机视觉的学术和产业界,成为了首屈一指的专家。

而此次来华,Alan教授一方面是为了向中国学生普及计算机视觉知识和行业现状,另一方面也是为了支持其学生Leo的创业项目“依图”—专注于视觉理解的初创公司,提供基于图像理解的信息获取和人机交互的产品,致力于构建机器视觉的未来。

由木见林看世界

什么是计算机视觉?Alan教授在两天的课程中都讲了什么?在应用层面,计算机视觉技术能用来做什么?

简单来说,计算机视觉是赋予计算机和人一般处理视觉信息的认知能力,即制造有人类视觉能力的机器,让计算机通过学习算法接近人类对图像的理解程度,对明显的视觉信息进行深度分析。而当计算机实现了对图像和视频的初始理解,计算机视觉就能帮助人类突破局限性,改善生活。

不同于计算机,人类一睁眼就能迅速看到和看明白一个场景,因为人的大脑皮层至少有一半以上海量神经元参与了视觉任务的完成。而计算机和人脑则是在极为不同的物理或生物限制下进行运转,即便说计算机视觉理想状态要更接近人类智慧,但在控制环境中,计算机系统能够比人类更好地完成某项明确任务。

计算机视觉的开放性任务一般包括物体检测、人脸识别、人类行为识别和场景理解。这也是依图正在试图通过技术应用解决的任务。而物体识别是计算机视觉研究的核心议题,不过当计算机没有学习,不知道看什么的时候,显然并不能看懂什么,所以需要一套系统教会计算机识别物体。

在传统物体识别系统中,当计算机尝试研究一个特殊类型的数码图像时,会首先检测图片的显著特征,即Alan教授课堂上讲述的边缘检测(Edge Detaction)和图像分割(Image Segmentation)。假设系统需要识别人脸,就会查看眼睛、鼻子和嘴巴等器官的边缘部分,然后确定它们之间的空间位置。

这意味着,处理数以万计物体的计算机系统将会变得不可控制的庞大。每当计算机系统库中加入一个新的物体,计算机就需要从头开始确定物体的重要部分。而物体虽然具有固有组成部分,但不同角度物体看上去又有所不同,所以计算机需要不断检视边缘确定空间位置,从而占用了大量存储。

而Alan教授和Leo Zhu于2010年采用新的方法解决了上述问题。他们研发的新系统通过递归式塔状结构来表示物体的结构—系统不需要事先被告知物体的哪些特征需要寻找,会先判定细微细节,由低层次的结构组合成稍微复杂的形状,再辨别稍复杂形状如何组合成为更高层次部分,组装成一个塔式结构,而最高一层则代表整个物体的模型。

基于研究成果,Leo Zhu意识到计算机视觉逐渐达到了从理论转化到应用层面的阶段,未来几年将进入技术爆发时期。2012年,他萌生了回国创业的想法。

“依图”的机器视觉

Leo Zhu在取得导师Alan教授的支持后,与多年好友林晨曦(前阿里云技术总监,ACM/ICPC全球大学生程序设计竞赛亚洲第一个世界冠军团队成员)合作创办了专注于图像理解的初创公司“依图”,并把驻地设在了上海。