房汉廷:大数据产业发展预测与政策取向分析

2014中关村大数据日于2014年12月11日在中关村举办,大会以大会以“聚合数据资产,推动产业创新”为主题,探讨数据资产管理和变现、大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题。大会还承载从政亚信府主管部门到各行各业的需求和实践中的疑问,探讨包括政府、金融、运营商等部门是如何通过数据资产管理和运营,实现转型发展和产业创新的路径。

在下午的政府@Big Data论坛中,科技部科技费监管中心副主任房汉廷带来《大数据产业发展预测与政策取向分析》。他认为未来谁拥有了数据,谁拥有了数据的发掘能力,谁会使用数据,谁就会在竞争前就可能胜出,而且以后,不是在竞争当中,竞争的结果是由竞争前的要素决定的,而这个要素的核心就是数据。

房汉廷:中国有一部分人是1960年代出生的,他们都活了一千年,一千年之前的状态和今天的状态都在这三十多年完成,在这个过程当中,我们今天不知不觉的就走进了大数据的时代,研究这样一个话题,研究这样一个产业,对于我们来讲,也都是一个新事物。我今天给大家做一个相对的梳理的一部分内容,就是大数据产业的发展趋势和政策取向,而这些大数据本身是不是一个产业,大数据本身到底是什么东西,其实都是在待定当中,我们比较确切的知道,大数据是人产生的,是物产生的,是机器产生的,这三个方面结合到一起,才产生了数据。

我们都知道,人的活动如果没有机器没有载体,那就是我们下面的嗡嗡议论,不会成为数据,物的变化没有载体的表达,也不能成为数据,当数据积累到一定的程度就会出现很多新业态新的形态,它是这些东西的高度融合,深度聚合,产生的一个爆炸式的增长以及复杂性的变化这么一个过程。如果我们用一句话来衡量,就是大数据实际是增加的全社会的社会资本,作为一个社会资本每个人都在创造它,每个人也都在享用它,每个人也都在受它制约,但是如何从一个社会资本提升为一种产业资本,并从过程当中进行开发和利用,这实际上是我们今天所面临的最大的课题,大数据很多人已经概括了,实际上有四个特征。

第一个是规模超大,超大到什么程度呢?叫做没法想象,我们可以来理解一下,2009年的时候,是0.8个ZB,12年是到2.72,根据预计2020年将达到35.2,每两年大概能增加一倍,这样的一个过程,使我们用原来的想象数据的方式无法想象,就像我们无法想象时间有多长,无法想象空间有多大,未来人类长期的这个器官也同样会走到天文数字,其实,我们用ZB的方法也是类似于公年的工作计划。

第二个是数据流速超快,目前数据的流动速度快到几乎用传统方法难以处理,我们如何管理数据如何捕捉数据,特别是捕捉有用的数据,整个互联网就像人一个大脑一样,它在不断的计划,我们每个人都在给它提供血液提供思想火花,所以未来的互联网这个人类的供应大脑,将拥有大数据不断的进化,进化到一定高级的水平,我相信每个人见到互联网都是恐惧的,都是害怕的,其实我现在已经很害怕这个互联网,因为我后面要讲到,你每个人都是裸游,只是你觉得海水没有退潮。

第三个就是内容超杂,我们可以看到,过去我们在治理数据的时候,通常来讲,就像刚才于斌部长一样,他给我们编好PPT,做好图形,现在传输的数据五花八门,形式多样,结构化的非结构化的数据比比皆是,这些东西怎么样来利用和来处理,实际上就非常复杂,我们可以看一下,07年的时候,全球有多少装设备联网是5亿个,人均是0.1个,到2013全球有500亿个,人均就拥有70个,下一步来讲,整个可穿戴设备又到了每个人从耳钉到耳环,从帽子到衣服等等都是的话,你想每天产生多少数据,一个人等等这样的数据都可能会传到互联网上去,形成整个大数据,五花八门。在这样的一个杂乱无章的一个数据体系当中,如何来找到你需要的或者说是别人需要的数据,这就是未来也是一个产业的节点。

第四点就是价值密度超低。过去我们想要了解一个人非常简单,到他单位看他档案,他什么时候入的团,什么时候入的党,到什么时候提的干,现在大数据里面都有记录了,你是转帐你是汇款,还是你的朋友圈一关联到你的资金流向,为什么跟这几个人的资金流向这么密集呢?当然,这就是现在他有一个数据扩大,如果我的朋友棚无限大,涉及十亿的朋友圈,那要查找很麻烦,可能他一段的记录,你需要查找海量的数据才能发现,整个的过程是不断的海外膨胀,但是,宇宙的密度基本上还是一个均质的密度所以在大数据的情况下,价值密度超低,这个密度超低之后,就给那些提取价值的人带来困扰。

以上我认为大数据四个特征,就是超大、超快、超杂、超低,这四个方面,当然大家可能还可以概括出很多来,反正大数据给我们无限的遐想。

第二个方面,我讲一下大数据产业的一个初步的发展趋势,因为对我来讲,这也是新课题,并不是说有多少深的造诣和研究,对我们大多数人来讲也是数据积累到一定程度之后,发现自己制造的那堆垃圾已经可以制造更好的复合肥了,我们原来不知道每个人每天上厕所都能够创造出化工厂这样的作用,实际上大数据我们也是在这样一个制造垃圾的过程当中创造了财富,我们从大数据来看研究来看,针对超大超快超杂超低这四个特点,实际上我们首先需要做的就是如何来提出新的技术和产品,来解决这四个问题,规模太大,就相当于你进了一个广场,你不知道那个针落在哪里,如何把它找到,那个超快,你的眼睛还没有眨一眨的时间,整个形象都变了,超杂,那就像一个万花筒,密度超低,你想找的找不到,你不想找的,扑面而来。在这样的一种情况下,就需要一些大数据的技术以及大数据的产品来做。

在这个方面,有时候我们中国总是后知后觉,美国2012年发布了《大数据研究与发展倡议》,这个东西可以媲美美国的信息高速公路,那个时候,我们中国才刚刚接触互联网,还不知道互联网将产生多大的影响,当美国又先知先觉做了大数据研发的时候,我们才感觉跟上,这就是一流国家跟二流国家的差距,一流国家总是建设于未来,二流国家总是跟进于先进者,大家刚才听于部长讲到的,按PPT来衡量中国已经是世界第一大经济体,按14年的推测,我们大约比美国的经济体多2000亿美元的一个水平,可是大家也知道,一个人体量大,不等于有力量,一个人如果是胖子,肥胖长大的,那么他可能还不如一个精干的瘦子。

所以说,中国在大数据方面,我想第一个一个产业的机会或者研发的机会就是在研发方面,这里面我认为有四高一深,实际上是我们在研发产业这个环节上应该是有机会的,首先就是如何高效的存储大数据带来的就是海量的存储,海量的存储我们现在的存储技术,尽管我们有云,尽管我们有其他的大规模存储介质,但是能不能把它进一步的压缩,进一步的简洁化,这方面给我们提出一些挑战。

第二个方面就是高效提炼,你如何在一大堆庞杂的数据当中,提取出你的有效数据,或者提取出你的用户需要的有效数据,第三个就是高效降噪,噪就是没用的干扰的,这些你能不能去处,第四个是高效整合,最后是深度挖掘,如果是做好这四高一深,我想中国这方面是有机会站在这第一梯队当中的。

第二个方面我们分析一下大数据的需求,大数据的需求从总的来讲,不外乎是三大主体,一个是个人,一个是企业,一个是政府,大数据的需求从个人角度来讲,每一个人每天都在制造数据,但是,他每天不一定知道自己在需求数据,在这个过程当中,会有一些服务商一些厂商不断的给你提供一些数据产品,其实他在慢慢的改变你的生活,你的需求是以服务商的形式来代理你来做。

第二个方面就是大数据企业的需求,我们都知道,在过去的企业决策的时候,外面提出了战略规划,实际上未来的决策是数据为王的一个时代,谁拥有了数据,谁就可以在之前确定了很多的东西,大家说不能算命,但是有了大数据,算命真的八九不离十,政府的决策也在大数据的平台上,大数据会导致政府的治理,刚才我们说发展出版社要出现代国家治理,现代国家治理原来一个最缺陷的东西是因为缺乏信心,缺乏足够的海量数据,能把各方面的诉求民意集中起来,所以需要精英,精英就是接近圣人的一波人,有时候错了,有时候对了,错了,他们就跟他吃药,对的时候就跟他吃糖,未来有了大数据,政府的决策就可以形成一个社会化的决策,比如任何一个问题都可以提交到网络,也可以对网络已经形成的信息进行深度的发掘和分析,这样的决策就是整个真正社会化决策,就可以取代精英决策,如果有一天,我们中国的政府的官员不需要精英,我们只需要输入几个关健词,就把我们需要的东西基本找到,我们再发布几个关键词,让社会群体来决策,最后,肯定找到的要比现在的精英治国,某种程度上更具有效益,也更符合大众的诉求。

归纳一点,就是谁拥有了数据,谁拥有了数据的发掘能力,谁会使用数据,谁就会在竞争前就可能胜出,而且以后,不是在竞争当中,竞争的结果是由竞争前的要素决定的,而这个要素的核心就是数据。我们可以看到大数据这个里面会派生出很多的东西,将来一定会出现大量的数据公司,大量的数据服务商,因为数据将决定每个人,他从一种社会资本逐渐发掘出一种商业资本,他成为无论是企业的一个竞争资源还是政府治理社会的工具,还是居民决策个人行为的一个工具,未来都将产生海量的需求,在这个海量需求的过程当中,它将成为一个互联网深度发展的新兴产业,在这个产业当中也有很多的公司或者其他的部门做过预测,仅美国来讲,全球可能未来有440万个IT新岗位和上千万的非IT的岗位是由大数据来决定的。同时,还要派生出一大堆的懂这个大数据的管理岗位,当然这方面,中国才刚刚起步,中国是一个人力资源大国,将来也是一个智力大国,中国在这方面的产业以及这方面派生出的需求可能是许国的几倍或者更多。尤其是在互联网大数据时代,是一个真正能够发挥一个人力优势的时代,而中国恰巧在这方面有所准备。到2030年左右中国受过高等教育的人达到2700万,这里有一部分人或者大部分人掌握了大数据的工具,我想未来各个方面的效率的提升,我讲是一个不可限量的事情。

最后,给大家做一点分析,从政策来讲,这个行当刚刚兴起,最近中国的科技体制正在发生着一个重大的变化,也就是过去的分散在四十多个部门的研发计划,都归并到一起,形成了五大类的研发计划,面向基础前沿的重大专项还有重点研发计划,创新引导类计划,还有人才基地,我想在这里面,如果说我们业内还有一些咨询机构可以提出这样一个专项就是研究大数据,研究与开发,目前国家的一个政策,是叫做贯穿式的研发,从基础一直到产业化,全链条的,缺什么补什么,而2015年正好是这一项体制改革的一个元年,如果我们现在能够着手准备的话,我想借助政府的力量,也借助我们企业的力量,还有其他资本的力量,共同的来把这样的一个事情做起来,这样的话,那些所有智力与研发,或者有志于研发,从事这个行当的人就可以在这个旗下集中起来,从我现在来看,还没有哪个部门或者哪个牵头的企业来提出这样一个专项。

第二个方面就是从产业政策方面,应该有一个规划,大家都觉得一个民间的决定可能是最科学的,但是我们说当它发展到一定程度之后,有一个规划就可以使我们的目标更加明晰,也能够使我们的政策更加接近于实际,在这个地方可以考虑建立一个中国的大数据发展的计划,至少要不输于美国这样的一个安排。

第三个方面就是投资政策,目前我特别希望如果能够有这样的一个投资基金专门来做我们这样的一个大数据,包括从它利用候补权益性资助以及引导资金或者其他的方式共同汇聚,因为没有投资,一切东西都会成为空中楼阁,大数据也一定是一个先烧钱后产钱的一个产业,而不可能是上来之后就是一片沃土。

第四个从人力资源政策,我们应该说在IT行业我们有一定的准备,但是在这方面的人力或者是数学人才还是非常的缺乏。

最后开放国家的数据库,这也是一个必要的条件,因为我们国家现在大量的来自政府的数据实际上是碎片化的,被分割在很多保密箱,而这些由公共财政支出以及公共活动形成的数据如果不开放,那我们在研究整个中国数据的时候,你就会感到有些东西是不正确的。或者是不能完全表达的,特别在中国,作为一个强大的一个主体,政府的数据如果不能够进来的话,那么这个数据他就不服从分布。

最后,给大家说说,我们还不确定大数据社会,到底会引起怎样的一个社会颠覆,但是以后引起的颠覆已经足够让我们瞠目结舌了,只要有挖掘技术能力,凡是在网络上留下足够痕迹的行为都可以一一还原。大家可以看最近阿里巴巴把他最近十几年的一个销售数据进行还原,哪些人是该剁手的,哪些人该鼓励的,一一清楚,如果还原一个人的行为也一样,有一个人每天从家里出来到单位,总是曲曲折折走好多路,但是你最后发现,他还是要回家还是要到单位的,那在这个单位干什么了,路上有几个风景点或者还有几个心爱的人他其实是在走这样曲折的路,大数据既可以模糊个体,大数据技术又可以聚焦个体,大数据可以使信息杂乱,同时又可以使信息杂而不乱,大数据是可怕的,世界都在裸泳,只是海水还在涨潮,大数据是诱人的,有谁不想看到自己和别人的真容呢?这就是大数据带给我们很多的遐想也有很多的恐惧,我相信在大数据这个时代,我们既是它的创造者也是它的分享者,同时我们还可能是它的受害人,谢谢大家。