“大数据100分”首场交流:数据处理 “去贵族化”+机器可读新闻

[大数据100分]

主讲人:白硕

主持人:赵国栋

承办:中关村大数据产业联盟

中关村大数据产业联盟特别邀请白老师担纲首期“大数据100分”论坛主讲嘉宾!

白硕老师是上海证交所总工程师,北大计算机博士、数学系博士后。兼任中科院计算所、信息工程研究所、中国科学院大学博士生导师。还担任中国中文信息学会常务理事,全国金融标准化委员会证券分委员会副主任委员。白老师研究和工作领域横跨学术、产业、资本,对大数据方面的研究既处在实践前沿又具备理论高度。

以下为交流实况全文,中间穿插部分专家与白老师的互动:

很荣幸同大家进行“大数据100分”首场交流。我作为一个曾经的学者和现任的金融机构技术主管,从我们行业的需求角度,结合我个人的专业背景,谈一点个人对大数据的粗浅体会。

一、大数据不等于数据大,谁也没有资格垄断大数据概念的定义权

有的人会说,你有多少数据?如果没有P量级的数据,甭跟我谈大数据。这种观点很有代表性,不仅自己有P量级数据的互联网公司、运营商这样说,一些学者也这样说。

(我们还没混进P阶层)

我的观点是,大数据不等于数据大。数据大,但没有与这个体量相称的处理手段、应用需求乃至商业模式,数据的价值得不到充分的发挥,那是空有其大。数据大,就算你也有相应的自我实现数据价值的手段,但这手段如果不能辐射到数据不算太大(比如,规模在1T到1P之间)的领域,那也只是孤芳自赏。我们人类社会在进步中,固然需要不断挑战数据处理极限,在挑战极限中发展新技术为自己所用,做这些事情的人和机构值得我们敬佩,这是肯定的。但他们的价值远不限于此。他们被挑战极限逼出来的成果,可以辐射得更远。

如果既能不断冲击极限(“顶天”),也能普遍降低非极限情况下数据处理的性价比(“立地”),这才是真正有价值的大数据技术。所以现在,大数据不仅是P量级的巨头们在谈,更广大的IT应用群体也在谈。谁也没有资格垄断大数据概念的定义权。

二、数据处理领域的“贵族化”与“去贵族化”

我在自身工作当中感触最深的,就是数据处理领域的“贵族化”。我从大数据热潮中获益最多的,就是数据处理领域的“去贵族化”。大数据的“普遍降低非极限情况下数据处理的性价比”这一特点,就是我们去贵族化的利器。

什么是“去贵族化”?这是一个笼统的说法。IT圈里很多人指名道姓地去XXX化,这虽然可以理解,但要看到具体的公司也会变化、也会进步。我们扬弃的实际上是一类贵族化的解决方案,所以我比较偏爱“去贵族化”的说法。

那,什么是“贵族化”呢?依我看,贵族化的解决方案有三个最主要的特点:重、滞、贵。

先看“重”,这里“重”不是指物理重量,而是指一种笨重的堆砌。给你10000个功能,你可能用不了100个,但这10000个功能却逼迫你走上一条不归路:你的软件和硬件无法分离;存储功能和计算功能无法分离,实时处理功能和历史分析功能无法分离,非结构化数据处理功能只能削足适履地转换成结构化数据、再用结构化数据处理引擎处理。

互动:@颜阳:普恵金融,普惠数据。降维处理

再看“滞”,这里主要指这类解决方案在架构上的巨大惰性。面对多变的业务需求和日新月异的服务模式,它难以快速掉头,快速跟进。一方面,用户之间被License彼此隔绝,很多共性的东西无法共同积累和共享;另一方面,由于平台的封闭性,解决平台相关的缺陷和问题的响应速度因缺乏竞争激励而显得缓慢低效。

互动:@赵国栋:就像笨重的word

最后看“贵”,顾名思义,采购成本昂贵、维护成本昂贵、平台迁移成本更加昂贵。这还不算,当解决方案从License模式向云模式演进时,还会遇到既得利益者的顽固抵制。这些昂贵的成本,当然最后都要落在用户身上。但是在过去,用户在安全运行的巨大压力下,只能在“这种”贵族化和“那种”贵族化中间选择,只能用贵族化的解决方案来彰显程序正义。

互动:@颜阳:Ios 榜样,windows另一榜样

一个单个的用户单位,要想做出去贵族化的技术决策,所面临的政治压力可想而知。