无法回避!那些制约大数据行业发展的问题……

我们这里使用用户地址举例说明,因为地址是用户自己填写的,有很多的坑,这就需要大量的洗数据工作。首先,第一类是假/错地址,因为有的商家作弊或是用户做测试,比如直接就输入“该地址不存在”、“13243234asdfasdi”之类的情况,这类的地址可以通过程序识别出来。然后,很多情况是很难通过程序识别出来,比如“宇宙路地球小区”,但这类地址可以被人识别出来。甚至还有连人脑都无法识别的,比如“北京市东四环中路23号南航大厦5楼540室”,这个地址根本不存在。其次,第二类是真地址,但是因为用户输入不标准,所以很难处理,比如将“建国门外大街” 缩写成 “建外大街”,“中国工商银行”缩写成“工行”; 比 如错别字将“朝阳门”写成“潮阳门”;比如颠倒,将“东四环中路朝阳公园” 和 “朝阳公园(靠东四环)”;比如别名,将有的写开发商的小区名“东恒国际”,有的则写行政的地名“八里庄东里”等等等等。

大数据

像上面这样的例子多得不能再多了,如果希望提高数据可应用的程度,那么必然需要花大量人力通过编写程序和手动挑选来淘洗数据。而随着投入的边际效用递减,数据有效性的要求越高,则需要投入的成本就成倍甚至指数级增长。

三、适宜海量数据处理的软硬件成熟度不够,成本太高,普及率低下。

从某种意义上来说,“大数据”一直存在,只是受限于时代和科技,因为缺乏相应的数据记录、分析工具而无法实现。

市场上缺乏兼具业务场景普适性和海量数据处理能力的数据库软件大数据时代的到来,使得电子商务、公共管理、SNS等领域几乎每个与用户相关的业务数据量都在亿级别,某些平台的日系统调用可能达到百亿级别,而且历史数据不能轻易删除,所以需要能对TB甚至PB级数据进行高速处理的数据库。传统的关系型数据库,如Oracle,mysql, SQL Server等不能很好地满足用户需求,而较新的NoSQL数据库也依然没有达到适应不同业务场景的需求,目前依然需要根据用户不同的业务特征来选择适合的数据库软件。

私有云和云服务普及程度太低

所有企业和个人都或多或少有大数据应用的需求。但不同的实体有不同的出发点,更在意安全和自主性的企业希望构建属于自己的私有云;应用需求少,对成本更敏感的企业则需要在线的即时云服务。但受限于人们对云技术的接纳程度、云服务的成本优势尚不明显等原因,私有云和云服务普及程度偏低也大大限制了大数据的发展。

四、 数据尚未获得真正意义上的定价和产业化。

数据的公开性与归属权不清晰直接导致了数据融合工作被割裂到一个个的独立的数据资产型平台内部。目前的大数据应用更多是针对公开数据和自有数据的价值挖掘,数据尚未获得真正意义上的定价和产品化。

在数据共享相对成熟的金融体系,以银行业为例,跨银行间的数据共享通道是人民银行与银监会分别牵头、管理的征信系统与客户风险统计系统,均采取“报送数据才能享受共享”及“信贷主体本身可申请及授权查询”的原则。在未纳入众多信托、小贷、互联网金融等机构数据的情况下,上述数据池的维护成本已经非常高。那么多新的交易和交互数据源如何进行互相融合,并形成一个个类似于金融投资业的万得、同花顺一样在细分业务场景下成熟且具有应用价值的产业化数据池?这是一个问题。

数据的产业化,从破除阻碍的角度看并关键在于两点,一是数据的公开性与归属权需要在法律及政策层面得到更明确的规范和指引,二是对同类业务场景下不同平台的数据制定统一的数据标准;从操作层面看,在应用范围的选择上,不应寻求一步到位或大而全,最好确定到具体的业务场景和产品形态;从实现路径看,寄望于行政力量介入模式(类似于银行间整合)的可行性不高,也许“平台还数据于用户,通过第三方机构公证数据真实性,用户再授权进行跨平台融合”才是一条可以期待的路。