数据API经济与大规模数据流通:从水的寓言说起

正因为数据API具备如此显著的优势,目前已经成为业界试水数据开放与交易的最热门方式。除传统BAT外,京东、海南航空等业界巨头在数据能力开放中均使用了数据API作为数据交换标准,另外更出现了如聚合数据等平台性玩家,汇聚跨行业数据API打造数据交易生态体系。下表是部分典型数据API开放接口运营商的信息,大家可自行体验感受下。

实际上,API并不是一个新鲜事物,早在2012年谷歌已经创造了每天通过API处理50亿笔交易的记录,而著名SaaS提供商Salesforce年收入中有一半是通过API产生的,“API经济”早已成为科技界的一个热词,只是过去API接口交换的内容更多是标准化的应用能力而非数据,但从目前尚存的蛛丝马迹中可依稀看到,大规模数据流通的未来新星也将会是数据API范式。在过去我们清晰看到,越来越完善的IT架构、尤其是云计算的普及让企业的商业模式核心能力已经充分IT化甚至云化,通过API接口实现了商业模式核心能力的外延大大扩充。如地图服务提供商通过API接口实现了GIS能力的开放,使得合作伙伴能便利接入GIS能力并基于此开发出价值更丰富的应用,并共同分享价值,而这种逻辑同样适用于数据能力的外延扩充。如果说PaaS平台实现了流计算、并行机器学习等重型大数据武器的轻量化的话,数据API将实现企业数据能力的精准推送与变现,这是解决大数据应用模式“最后一公里”的关键手段。

数据API经济的潜在风险

我们看到数据API在构筑未来大规模数据跨业态流通方面的巨大潜力,以及数据API作为一种数据交换规范方面本身难以替代的优点,但通过深入观察我们可以发现,当今的数据API规范远非完美,在今后推动数据流通中将会浮现各种问题和潜在风险,其中最典型的就是“洗数”活动的出现。

问题一:当前数据API规范缺乏数据鉴权能力,将导致“洗数”活动泛滥。我们知道,数据API的本质是数据能力的DaaS化,即将复杂庞大的泛化数据资产根据特定的业务场景进行预处理与挖掘,并通过API接口规范输出为精确的数据应用推送。典型的案例如上文介绍的三元验真API服务,是一种范化数据到具象化应用的转移。因此我们发现,数据API应用本身也是一个数据降维的过程,在获得满意结果的同时,我们实际上看不到原始数据的任何特征,包括原始数据的实际权属,属于数据“可见不可得”的应用方式。如此一来,各类地下黑市数据就有机会堂而皇之地被转化、包装为数据API服务,被洗白后出现在各类数据交易平台之中,而实际上需求方没有太多办法分别其中的猫腻。

假设有人通过数据地下黑市获取了大量个人房地产交易数据(而事实上现在数据黑市的主要数据买家除了诈骗者、黑客以外,就是各类大数据公司),这些灰色数据在被获取以后,很容易整合、处理为金融机构尤其是互联网金融迫切需要的个人征信类数据API,具体返回查询对象名下房产的数量或者市值等级。通过这样的降维处理及出售方式转化(整批数据违法出售变为单个数据查询),数据就被洗白一遍了,另外如果加入其它数据通过更为复杂的模型处理并转变为更为高层次的结果输出后,其数据的违法性几乎会被洗白得无法追踪。这个过程就犹如金融中的洗钱活动一样,可以预见随着数据API经济的兴起,“洗数”活动将会逐渐出现,毕竟黑市数据价格与数据API售价差异的暴利摆在那里。

正如开篇寓言故事中水龙头商人以次充好的行为,“洗数”活动的实质,相当于把看不见的地沟油和病猪肉做成香喷喷的香肠,表面上刺激了数据交易与流通,提高了供给侧数据产品的多样性,但实质上是让大量不及格的数据流入了市场服务中,长期上损害了市场本身,最终导致逆向选择的出现毁掉了数据API交易经济。

问题二:缺乏对个人隐私数据查询的保障。如果说上文介绍过的个人用户三元验真API服务已经涉及到个人用户隐私边界的话,那目前个别如身份证头像校验、学历查询、电商消费者画像查询等数据API则已经大张旗鼓地进入了个人隐私保护的禁区。我们知道,第三方机构查询个人用户央行征信报告前,是需要得到个人用户明确书面授权的,其中的法理非常简单,因为这些数据可能会为当事人带来不利的影响。在未来,我认为数据API将需要建立类似的个人用户授权体系,要求查询方在得到用户明确授权后才能获取相应的隐私敏感性查询结果,否则与倒卖个人数据的贩子没有本质区别,充其量只是通过API接口这种相对隐蔽的方式去做而已。但目前来看,业界对于隐私类数据API的查询授权是严重缺失的。