集智科学家张江解析:为什么复杂性需要深度学习?

  雷锋网 (公众号:雷锋网) 按:本文来自北京集智俱乐部。作者 张江,北京师范大学系统科学学院副教授,集智俱乐部创始人、现任主席、集智科学 家,腾讯公司腾云智库成员。

  尽管复杂性科学一直在追求一大类终极问题的答案,如生命的起源、复杂性的起源等。但其实它的发展完全是研究方法驱动的。例如在计算机出现之前,人们是用哲学思辨和数学方程来研究复杂系统;到了90年代,圣塔菲学派兴起,多主体仿真、复杂自适应系统方法席卷了各个研究领域;2000年以后,复杂网络崛起,小世界和无标度以及各式各样的网络分析渗透到了复杂性研究的各个角落;到了2010年以后,基于大数据的复杂性研究和计算社会科学(computational social science)开始兴起。那么,站在2016年的末端展望未来,下一波的热潮将会是什么呢?有没有可能是引领工业界革命的深度学习技术呢?

  实际上,将深度学习技术引入复杂性科学研究已经有了大量的研究案例。例如,最近Science上发表了一篇“用遥感和卫星数据结合来预测贫困”的研究就是一个很好的典范1。来自斯坦福大学的一个团队利用深度学习技术成功预测了非洲地区的贫困,这一研究不仅解决了困扰了社会学家们数十年的大问题,而且也打开了深度学习方法渗透进社会复杂性研究的一个新窗口。

  用深度学习预测贫困

物联网

  用深度学习和遥感数据预测非洲贫困的Science文章(左),以及同期刊登的评述文章

  问题的背景是这样的:非洲的贫困问题长期得不到解决,这并不是因为缺乏来自发达地区的资助,而是因为没有精确的贫困数据。这就使得对非洲的大量投资没有达到需要救助的地区,而全部落入了富人和贪官的腰包里,从而导致了更大规模的贫富差距。于是,人们想到了利用卫星拍摄到的夜光数据来预测地区的贫困,因为越富有的地区,通常夜间灯光的亮度也越高。

  但是,这个结论反过来却不成立,并不是说越贫穷的地区灯光越暗。事实上,研究人员从一片黑色区域中完全区分不出无人居住的沙漠,还是贫困得连灯都用不起的村庄。怎么办呢?

物联网

  图1 复杂的训练管道,上面的流程为输入一块区域的卫星遥感数据,来预测同一区域的夜光明亮度,从而训练一个卷积神经网络以获得遥感数据中的特征。下图所示为:将卷积神经网络进行迁移,再配合上少量的贫困调查数据作为标签,训练一个普通的神经网络。最终卷积神经网络+普通网络就可以根据输入图片来预测地区贫困。摘自:文献2

  斯坦福的这个研究团队巧妙地将另一种高精度、高质量的卫星遥感图像数据训练一个深度卷积神经网络(Convoluational Neural Network, CNN),以预测同区域的夜光数值大小。但这样做的目标并不真的为了预测夜光,而是为了提取遥感图像数据中的特征(例如街道、屋顶等)。然后,再利用这些特征作为输入,以及少数采样点的贫困调查数据作为标签,一起来训练一个普通的神经网络。最终,喂给这个网络一张街景地图,它就可以高精度地预测该地区的贫困程度。就这样,这个组使用了非常先进的迁移学习技术,以及复杂的机器学习训练管道(pipeline),对局部贫困程度进行了较高精度的预估(如图1)。

  深度学习与多主体建模

  多主体建模是复杂系统一种非常普遍而有效的研究方式。我们将系统理解为大量个体遵循简单的相互作用规则而形成的整体。例如,当我们分析人群的集体行为时,可以对每一个个体人建立模型,并假设它们都遵循极其简单的相互作用规则(如社会力模型3)。然后,我们在计算机中再造这群人的计算机仿真程序,从而模拟出人群的运动轨迹。

物联网

  社会力模型的模拟程序

  尽管这种思路的确可以逼真地模拟复杂系统,但是所有的模型规则和参数几乎全部是模型构建者拍脑袋决定的。这就使得模型的准确性和可信赖程度大打折扣。

  我们知道,实际上,现在的城市公共空间装满了各种各样的摄像头。大量的人群运动轨迹被记录在了视频里。那么,我们能不能自动地将视频中的个体人的运动轨迹提取出来,训练我们的主体模型,从而得到极其逼真的人群运动模拟呢?