魏凯:大数据的价值探索与实践

中国IDC圈1月7日报道,1月5-7日,第十届中国IDC产业年度大典(IDCC2015)在北京国家会议中心隆重召开。本次大会由中国信息通信研究院、云计算发展与政策论坛、数据中心联盟指导,中国IDC产业年度大典组委会主办,中国IDC圈承办,并受到诸多媒体的大力支持。

中国IDC产业年度大典作为国内云计算和数据中心领域规模最大、最具影响力的标志性盛会,之前已成功举办过九届,在本届大会无论是规格还是规模都"更上一层楼",引来现场人员爆满,影响力全面覆盖数据中心、互联网、云计算、大数据等多个领域。

数据中心联盟大数据工作组组长魏凯出席IDCC2015大会并在大数据应用与安全技术论坛发表主题为《大数据的价值探索与实践》的精彩演讲。

I42A1601

数据中心联盟大数据工作组组长魏凯

以下为魏凯演讲实录:

大家好,我是信息通信研究院的魏凯,我同时在数据中心联盟大数据工作组工作,今天题目是大数据应用与安全,跟大家探讨三部分,一是我们对大数据产业技术发展的概览,大家做安全的同时对大数据有主要的了解,分享一下我们的主要观点。二是我们院做政策支撑的时候了解到的信息,国家现在在做大数据的国家战略,工信部大数据产业的十三五规划的最新进展和政策考虑,有些与安全有关。三是数据中心联盟和我们院做的与大数据有关的工作,看看大家有没有结合点。

第一,不管是国内还是国外,大数据这个产业有谁在玩,有三个环节,第一个环节是数据资源,大数据如果没有数据的话是无米之炊的事情。怎么来拥有和获取这些数据,我待会儿会详细地说每个环节有什么问题。第二个环节,有了数据以后怎么用很好的很便宜的系统把它存下来,分布式的集群把它管起来,用先进的算法把它挖掘出来。第三个环节是应用和服务的环节,我们从产值的分布来看是依次在增加,前两个环节对国内做了一个统计,统计大数据的产值有多大,前两个环节全球200亿美元,中国100亿人民币,如果把第三个环节算上非常大,很多咨询机构和政府智库都在评估大数据对国家带来的经济效益有多大,大概是GDP的2%,那是非常大的。中国GDP如果乘以2%是非常大的量。大数据整个产业有很强的外部效应。

我详细说一下每个环节存在什么问题。第一个环节是数据,我们跟很多做大数据的公司,包括应用部门、技术提供部门都在讨论,数据是极度不均衡的,需要数据的人拿不到数据非常着急,结构性短缺问题非常严重,其实每个企业的数据都在暴增,书到用时方恨少,数据也是一样的,有这样一个现象就是结构性短缺。结构性短缺有两个不正常的状态,两个极端,一个极端是很多希望拿到数据的,比如银行希望拿到客户的数据对数据进行精准的分析,做征信的评估,但很难从各个渠道获取很全的数据。要数据的人拿不到,数据死锁在政府部门,死锁在数据拥有的企业手里。另外是无序的,黑市上的数据交易非常多,个人信息的泄露经常发生。我们觉得是两个极端现象,是不正常的现象,应该是中间状态,像水龙头一样,需要的时候开,不需要的时候关掉,这应该是有序流动的状态,这是一个理想状态,但现在做不到。

企业获取数据非常困难,不光是小企业,大企业也一样,这里列举了几种,一些大银行、大企业获取数据都有什么招术。有七八种招术,跟别人合作,自己建平台,建电商平台,获取政府开放的数据。跟企业合作成本是非常高的,你想买数据,有数据的人是很犹豫的,担心产权纠纷。等数据开放是等不起的,国家在纲要里提了2018年要建一个大数据的统一开放平台,阻力非常大。数据的获取非常成问题。交易所是非常好的途径,各地每个月都会成立一个大数据交易所,地方政府领导非常热衷于交易所的成立,现在运行在制度真空的条件下非常令人担忧,里面有很多问题,特别是权力、责任、利益的分割,在数据交易的事情里没有清晰地讨论清楚,基本是建立在沙滩盖楼的状态,很多理论上的问题没有解决,比如产权的界定很模糊。这是我们看到的数据的问题。

大数据技术,2000年左右到现在技术更替非常快,特别是底层技术没几年就会来一轮新的变化,我们认为大概经历了三个阶段,九十年代很多企业做数据分析都是用原来的数据库,这种情况下成本非常高,2000年左右,谷歌等大的互联网公司发明了新技术,用Hadoop,用非关系型数据库做数据分析,解放了很多限制,一下子把工程师的思路打开了,可以放松一致性的要求,让我的吞吐量变得非常高,成本下降非常快,这是NoSQL的兴起。2010年以后,在互联网公司的教育下,传统企业认识到大数据的平台对他是有价值的,对他在未来是有战略性的事情。对传统公司、传统行业来说,大数据的门槛非常高,因为他们没有Hadoop的程序员,没有NoSQL的程序员,应用还是跑在SQL上,没有办法迁移到JAVA平台说,应用起来惯性非常强。2010年以后讨论最多的就是怎么给Hadoop加上SQL接口,让分布式的平台能兼容以前的使用习惯,甚至让应用无感知地运营在Hadoop上,这是第三个阶段的轮回,放弃了Hadoop。现在更热的是把Hadoop当做数据库来用,不管企业级软件还是应用开发很重要的方向。