无法回避!那些制约大数据行业发展的问题……

系列回顾:

趋势:大数据代表未来,投资力度增强

独家:最新大数据产业现状和主要子行业介绍

36大数据专稿,拒绝转载!

一、数据的归属权不清晰,数据资产型企业私密占有平台数据,制约着大数据的融合及发展。

阿里巴巴,这家集B2B、B2C、C2C电商平台与第三方支付于一身的巨无霸企业,在2009年前后开始低调试水小贷业务,并在之后成立了阿里金融事业部。基于阿里平台所累积信用和行为数据的全新风险管理模式,快速灵活的放款审批流程,为需求旺盛但供给远远不足的小微企业小额信贷业务打开了一条别样的路。阿里金融从出现开始便受到了广泛关注和讨论。许多机构和个人都向往之,也对其模式了解得清楚明白,但均默默然而无法复制。究其原因,就在于“阿里平台独有的沉淀信用及行为数据”——数据,阿里金融的独门利器。

无论已有的金融交易软件(如金太阳、大智慧等),亦或电商平台、O2O平台、第三方支付平台,还是SNS 和其他交互数据源;现状是——原始数据存储在平台后端,被平台掌握者控制,数据的创造者(平台用户们)是否掌握与自己相关的数据取决于平台的开放性和接口提供。平台企业们互相独立地像挖矿一样在沉淀数据中淘金,各自取得一些不错的成果,但事实上数据的私密占有也严重制约着大数据的广泛应用和整体发展。

那么,数据到底是谁的?是平台企业的,还是数据创造者(平台用户)的?还是既是平台企业的,也是平台用户的?什么样的数据是公开的,什么样的数据是私密的?

一般认为,原始数据沉淀在平台上,平台实际占有并可以使用,但在未获授权的情况下不能提供给第三方,用户对原始数据的占有获取权及公开程度基本取决于用户与平台达成的协议(多为安装平台软件前的“用户须知”部分,用户除用脚投票外并无实际协议制定权);而平台对原始数据经过统计提炼获得的其他信息属于平台企业。

参考国外立法,数据是属于个人的,平台企业可以解除、使用数据不代表个人放弃对数据的所有权。国际立法趋势上看,信息主体的权利正在强化,如信息主体的遗忘权、转移权;信息控制主体的责任更加明晰,如明确了负有个人信息保护义务的服务提供商范围、要求服务提供商设置个人信息保护专职岗位,增加了服务提供商对侵权行为的通知义务,便于用户采取预防和减损措施。

国内的政策法规方面:2012年12月28日,全国人大常委会出台《全国人大常委会关于加强网络信息保护的决定》,对网络信息保护进行了原则性的规定;2013年7月,工信部出台《电信和互联网用户个人信息保护规定》;除此以外,《信息安全技术、公共及商用服务信息系统个人信息保护指南》作为我国首个个人信息保护的国家标准,虽然不具有法律上的强制约束效力,但具有指南性,亦可作为衡量互联网企业是否有过失的参考性标准;目前,我国正在起草《电子商务法》,强化对平台的监管。

二、数据有效性将直接影响到大数据的应用水平。

数据的质量

大数据就像砂金矿,为了开采出金子,人们需要不断的淘沙,淘出沙金,然后再经过冶炼获得千足金。而数据质量就相当于砂金矿的含金量和成色,良好的数据质量是挖掘价值的基本保障。

我们认为,数据质量主要涵盖两个大方面:一是基本质量,包含准确性、一致性、容量和更新率4个要点;二是可应用性,包含易识别性、易处理性、获取及时性、远程访问性和智能性5个要点;详情见下表。

大数据

洗数据的难度

在大数据应用中,有一项极其重要也极其困难的工作,那就是“洗数据”。洗数据就是把大量包含无效数据、分布杂乱无章的原始数据进行归并聚合,通过建立数据标准并执行来取得我们需要的分析样本的过程。

正所谓:Garbage In, Garbage Out! 数据挖掘的领域内有一个观点:如果数据准确度在60%的时候,你干出来的事,一定会被用户骂;如果数据准确度在80%左右,那么用户会说,还不错;只有数据准确度到了90%的时候,用户才会觉得真厉害。但是从数据准确度从80%到90%要付出的成本要比60%到80%的付出大得多得多。大多数据的数据挖掘团队都会止步于70%这个地方,因为再往后,这就是一件相当累的活,绝对少不了大量人力的工作。