“没有数据源”是个伪命题

切记:不要将上述两个方面混为一谈。但这与“产学研一体化”不矛盾。

4.关于“大数据产业”,需要强调的几个概念     

1)“大数据产业”并非一个独立的产业,他只是一个服务性的工具。     

大数据技术的研究及应用,是以市场诉求及产业经济发展需要为基础的,它不过是服务于特定目标的技术手段。因此,目前最最紧缺的是行业性的大数据专才,比如医学领域急需要懂得人体生命科学及健康学的具有大数据思维的专家。     

2)大数据思维比大数据本身更重要,物理模块比数字模块更有价值。     

因此,大数据人才并非只有数理学科的专业人才,而是混合型人才,比如:能够写计算机编码程序的人比比皆是、身价也不高,因为他们只知其然不知其所以然。然而,大数据时代的“架构师”不是单纯的数字建模和初级的行业知识,而是能够独立策划设计出产业创新发展物理模块的专家。也就是说,玩“大数据”的技术圈子,若单纯靠Hadoop、MR、Storm、Spark、Kafka、Dataflow这些数据处理技术,只能搭建出没有使用价值的空中楼阁,其研究只能自困于小圈子而渐渐窒息。因此,如果大数据的研发及应用,只是数据技术的“圈内人”,那的确是一种悲哀。

3)“没有数据源”是个伪命题。     

我最近跟不少谈吐大数据的人士交流过程中,大家普遍有这样的感叹:中国的数据垄断与分割很严重,搞大数据研究缺乏数据资源,根本得不到政府各个职能部门及中国电信、中国联通这样的数据,怎么搞研究?而且也没有数据交易市场。其实,“没有数据源”这是一个伪命题。事实上在美国、在欧洲、在日本,数据作为一种核心的资源,在很多领域、在很大程度上也是不公开的,即使美国硅谷一些专家呼吁建立数据交易市场,那也是太过天真的想法,不可能完全实现。越是大数据时代,数据资源越是宝贵,任何机构和个人越是不会轻易泄露自己的数据信息。其实,并不是数据越多越好、数据流量越大越好,有效数据及数据关系才是最重要的。因此,大数据研究与应用,在很大程度上是研究模式和研究方法问题,如果把握好应用端的明确诉求,采集有效数据样本并不是太难。比如:类似Hadoop(2006年发布的分布式数据开发应用程序),Spark(UC Berkeley AMP lab发布的数据并行计算框架软件)、Dataflow(数据流)等等大数据软件及名词,最初都源自谷歌等IT企业及美国一些理工科大学的实验室。它源自实践也必然生存和成长于实践。因此,推动大数据产业发展的“数据源”主要来自自身,第三方研究服务者的数据主要来自需求方的委托。特别需要说明的是,一个真正的大数据专家应当具备的最基本的“真功夫”是:根据产业发展需求设计有效的数据样本并建立模拟应用系统,然后在实践中验证。     

4)市面上诸多大数据培训忽悠的成分很大。     

前不久在南方某城市参加一个大数据主题的专业会议,会议主办方根据经验预估,设定了150人的接待规模,可实际上报名到会的翻了一倍。因为会议主题是“金融业大数据”及“大数据培训研讨”。参会人员多一半为国内各地高校的计算机及数学应用院系的负责人。参会者流露出的一大困惑情绪是:现在“大数据”很热,可是高校竟然连本像样的“大数据”教材都没有,这方面的师资力量十分脆弱;而社会上诸多“大数据”培训班,基本上是忽悠人。有的培训机构甚至承诺:一周培训就可以具有“数据架构师”的能力,薪资翻几番。     

我曾在北京的一个大数据高级研讨班上,私下请教一位大数据授课专家(他自称承担国家重点科研项目):如果不懂一个行业或者产业领域的市场特征及业务结构行为逻辑,怎么搭建数据模型。他回答说,涉及行业及产业需求端,我们不负责,我们只负责根据具体的要求完成数据建模和确定合适的算法。我又问:如果需求方不具备大数据思维,陈述跑偏或者你理解有误,最后的产品成果无法有效运转怎么办?他说:那责任在委托方。可想而知,现在市面上的大数据专家们在忙什么?大都忙着攒项目圈资金,然后恶补美国十年前就已经发布的诸如Hadoop这样的计算机软件。学几个计算机软件并不难,但是研发创新这样的软件并非易事,如何有效应用这些软件,也需要很好的内功。