深度学习vs大数据:神经网络权值的版权属于谁?

深度神经网络能够焕发新春,大数据功不可没,然而大数据的版权是否应当延伸到深度学习产生的知识,这是一个现实的问题。本文通过ImageNet可视化大数据、Caffe共享深度学习模型和家中训练三个场景审查了深度学习的权值与大数据的关系,介绍了目前的问题和解决方案。文章最后预测深度学习将来可能需要相关的“AI法”。

要获得有用的学习效果,大型多层深度神经网络(又名深度学习系统)需要大量的标签数据。这显然需要大数据,但可用的可视化大数据很少。今天我们来看一个非常著名的可视化大数据来源地,深入了解一下训练过的神经网络,然后扪心自问一些关于数据/模型所有权的问题。接下来,我们需要牢记一个基本的问题:一个学习过的神经网络的权值是输入图像的衍生品吗?换句话说,当一个深度学习系统使用过你的数据之后,谁应该拥有什么?

背景:深度学习“计算机视觉秘诀”

现今最成功的机器学习技术之一是深度学习。深度学习引起广泛关注的原因是由于它在处理语音[1]、文本[2]和图像[3]等任务中展现出来的显著成果。深度学习和物体识别(object recognition)技术率先在学术界萌芽(多伦多大学、纽约大学、斯坦福大学、加州大学伯克利分校、麻省理工学院和CMU等),然后被工业界采用(谷歌、Facebook和Snapchat等),现在新兴的创业团队们(Clarifai.com、Metamind.io和Vision.ai等)正将可视化智能(visual intelligence)带到公众的面前。虽然人工智能的走向仍不清晰,但是深度学习将会扮演一个关键角色。

在可视化物体识别任务中,最常用的模型是卷积神经网络(也称为ConvNets或CNNs)。它们可以在不使用手工选取特征引擎的情况下来进行端对端的训练,但是这需要大量的训练图片(有时候称为大数据,或者可视化大数据)。这些大型的神经网络从一个空白模型开始,使用一种高度优化的反向传播算法进行端对端的训练。反向传播算法不过是在微积分101课程中学到的链式法则,并且现在的深度神经网络训练算法同二十世纪80年代的算法几乎没什么不一样。但是今天高度优化的BP的实现是基于GPU的,它能够处理的数据量远多于互联网、云、GPU时代之前的神经网络。深度学习的训练结果是一些权值的集合,这些学习过的权值代表的是模型架构中不同层上的权值——用浮点数表示的这些上百万个的权值代表了从图像中学到的内容。那么,关于这些权值,其中有趣的是什么呢?有趣的是权值和大数据之间的关系,现在,这种关系将受到审查。

“基于ImageNet训练后的神经网络权值是ImageNet的衍生品吗?是数以百万计的版权声明的‘污水坑’吗?通过训练来逼近另外一个ImageNet网络的神经网络又算是什么?”(这个问题在HackerNews上被提出,出自kastnerkyle对文章“ A Revolutionary Technique That Changed Machine Vision”的评论。)

在计算机视觉的背景下,这个问题确实引起了我的兴趣,因为我们开始看到机器人和装备了人工智能技术的设备进入到了我们的家园中。我希望这个问题在未来的十年中受到更多更深的重视。现在先让我们看看在2015年中正在解决的一些问题吧。

1.ImageNet:非商业化的可视化大数据

让我们先看一下一个在深度学习系统中最常用的数据源——ImageNet[4],这个数据源设计的目的是用于识别大量的不同物体。对于研究大规模物体识别和检测的学者来讲,ImageNet是最大的可视化大数据。2009年,该数据集出现在由Fei-Fei Li研究团队发表的一篇CVPR文章中,之后,该数据集取代了PASCAL数据集(这个数据集样本的数量和多样性不够)和LabelMe数据集(这个数据集样本缺乏标准化)。ImageNet数据集脱胎于Caltech101(2004年的一个数据集,侧重于图像分类,同样由Fei-Fei Li团队研发),所以我个人还是认为ImageNet是类似“Stanford10 ^ N”的。ImageNet在推动物体识别到一个新的领域——深度学习阶段起到了核心的作用。

截止到2015年5月1日,ImageNet数据库拥有超过1500万的图像。

问题:有很多非常大的数据集,其图像是从网上采集的,但是这些图像通常都带有自己的版权。版权阻止了图像的收集和出售,所以从商业角度来看,当产生这样的数据集的时候,必须要小心一些。为了使现实世界中识别问题保持最先进技术,我们必须使用标准的大数据集(代表了能够在现实网络中找到的内容),培养一种共享成果的社区意识,并且维持数据源的版权。