当我们谈论数据流通边界的时候,我们在谈论什么?

作者:亚信数据 方亮

题图:“This is for Everyone”,互联网之父 Tim Berners-Lee 爵士,在2012年伦敦奥运会期间所发的twitter,来源:Martin Rickett/PA Wire

本文介绍了ODI(The Open Data Institute,开放数据研究所)提出的“数据频谱”(Data Spectrum)概念,对不同边界范围的数据权利进行了界定,希望能帮助大家在谈论数据流通时可以进行更加有效地沟通。

一 概念易混淆

不少人会担心个人的健康数据被“公开”,也区分不开商业数据和个人数据,甚至会将“大数据”和“开放数据”相混淆。

在大数据时代,若想应对数据带来的挑战,充分释放数据的价值,就需要精确地掌握这些概念究竟代表着什么。只有准确而清晰的理解这些,才能进一步讨论应该如何使用数据、数据对未来有何影响,以及如何规划未来。

无论是大、中、小数据,抑或是政府、企业、个人数据,关键问题在于——数据是如何被许可授权的!

二 数据有其谱

数据有各种使用场景,可以用“数据频谱”描述不同类型的数据可用性:关于谁有权访问数据,以及他们能如何使用数据的决策。

数据的频谱范围从封闭到共享再到开放:

1.封闭数据(Closed Data):选择保持封闭的数据并不一定个人。处于数据频谱的这个区域的数据可以是由个人或是组织产生的。这些数据只允许其所有者或持有者来访问和使用。

图片来源:ODI,遵循CC-BY许可协议,下同

2.共享数据(Shared Data):共享数据是指与一个特定的人或组织进行了共享的数据。数据如何被共享,谁有权访问数据,以及他们能如何使用数据,通常都会被列入一个明确的许可协议中。共享形式包括:

具名访问(Named access):数据仅被共享给具体的个人或组织。

条件访问(Attribute-based access):数据对满足特定标准的群体可用。

公开访问(Public access):数据非“开放”,但在满足条款约束的情况下对任何人可用。

有时候,数据可能因特定目的而被共享给特定的人群。比如,健康数据被共享给申请授权的某些研究人员,用于医学研究。这些数据来源的个人和组织会基于数据如何被使用,以及他们能从中获得什么回报来决定是否要共享数据。

3.开放数据(Open Data):指的是可以被任何人访问、使用和共享的数据。

数据若想被认作是“开放”的,其必须满足:(1)可访问,这通常意味着在网上公开发布;(2)以机器可读的格式提供;(3)具有允许任何人访问、使用和分享的许可证——可以是商业的,也可以是非商业的。

数据频谱在横轴方向显然有封闭、共享和开放的区别,但在纵轴方向其实也有差异。简单来说,数据频谱中的纵轴代表了数据量的大小。从未来可能的场景来考虑,可以认为纵轴代表了特定类型的数据所占的比例。

三 频谱非线性

需要说明的是,数据频谱并不是线性的——数据的访问和使用可以在整个频谱中以各种不同的方式被约束。

既存在仅供组织内部查看的封闭数据,同样也存在集成于一系列内部产品和服务中的封闭数据;数据可能被共享给了特定的人群,但他们可能只有访问权限,而无使用权限;公开数据也可能存在限制,例如需要遵守数据发布者或持有者的署名许可。

所以,不管是个人数据、商业数据、还是所谓的大数据,在不同环境下,既有可能是封闭的,又有可能是与特定个人或组织共享的,还有可能是在某种许可下开放的。

数据将如何被访问和使用,是所有数据持有者或数据所有者未来必须面对的一个决策。在数据被置为封闭、共享或开放之前,它仅仅是“数据”本身。“你”的意图和方式决定了其将被置于数据频谱的哪个位置。