真假大数据(一)

10月24日,中国TMT国际商会在北京华彬中心举办了一场主题为“大数据  大影响”的论坛,会上知名IT评论人谢文就当前热炒的大数据话题,做了精彩演讲,引起全场热烈反应。中国宽带产业基金董事长对此现场点评到,“这是我半年来听到最好的关于大数据的演讲”。中云网特将演讲整理,全文如下:

知名IT评论人谢文

我从大概过去半年左右时间写了十篇关于大数据的文章,杂志上也发表了,这只是出于我的嗜好,关于互联网,关于大数据的发展,没想到这次的反响远远高于以往的经历。应该说大数据这个概念刚开始出来,但是从我最近这一段常常被各种机构、各种部门、企业叫去参会,做演讲,最重要的困惑就是大家对大数据都有兴趣。一张嘴,南辕北辙,完全不在一个兴趣点上。所以我想站在互联网发展的历史,和投资的角度向各位介绍一下我想理解的真的大数据,或者半真半假,或者是大数据的环节,或者是假的大数据。

在互联网在中国开始初期,1999年到2010年我管它叫做互联网争论,1999年参加券商和投资领域的会,当时有人能一口数出中国有80个是互联网概念股,非常吓人,其结果不言自明。2003年到2005年是互联网真正见真钱的时候,靠电信公司的宽大政策,我们大家都活下来了。但是当时ISP这个概念下,鱼龙混杂,最终混乱了这个行当,也是概念上的混乱。2007年到2009年是WEB2.0,最后尘埃落定,中国竟然没有一家像Facebook的公司能够脱颖而出,我早期做的校内,现在流量排第12。其实后面还有关于真假新媒体,真假团购,现在余震未平,大概上万个团购投了前后二三十亿,现在一地鸡毛,所以我觉得今年,包括下面两三年大数据会卷入一种混战。

因为我们无论从投资者、创业者、经营者还是媒体推波助澜,大家喜欢看宏观、微观、局部,这是好事,怕的是你摸着石头过河,一路摸下去,越摸越惨。讨论大数据用的“时态”还是不一样的,易观的朋友用的是现代时、更在进行时。过去时,大数据古已有之,在物理学、生物学、医药业等领域已经搞了几十年了。这个概念本身听着就悬乎,大数据,形容词,不是严格的定义,喜欢说过去时的多数是学术界的人,知识界、学术界,他们有纯粹的讨论数据大的怎么办?

完成时的,“我们能够提供从硬件到软件再到方法的完整大数据解决方案”他说随便来,我早准备好了,你提供钱就是,我不是说这个路就错了。或者我讨论问题也是这么讨论,我从来不把创新和技术障碍作为前提放在前面,我假定技术条件是具备的,我们回想几次互联网大创新,技术条件都在那。那么多互联网公司只有你有好主意,他们一定能跟上。

进行时:我们正在加大投入,在数据获取、存储、整合、挖掘等方面发奋努力。说这种话的都是互联网公司,或者电信公司,他的意思是这点事尽在囊中。这些都是互联网公司的,但是这三种我个人都是不同意的,我使用的是将来时,大数据不仅是网络业的未来,而且是整个社会和经济发展的未来,现在应该开始讨论、研究、尝试这个方向的问题了。

我就把它作为未知,作为努力的方向,作为未来来讨论的。我不敢绝对的说我是对的其他三种是错的,但是相互之间有关系,我个人认为至少过去是完成时肯定是错的。我们TMT商会不会以考古为兴趣,不是以研究历史为兴趣,我们是研究未来的。还有一个观察点是讨论大数据的时点,这是我们在第三篇文章里面讲过的,非常巧合,1996年雅虎上市,2004年谷歌上市,2012年Facebook上市,间隔都是八年。雅虎在我看来解决的网页聚合问题,漫山遍野的网页,他想到了一个办法,门户解决方案可以分门别类,你就不用去找了,靠我们的专家队伍把它编辑成为一种分门别类的,无所不包的门户,这个时代回过头去,我把它叫做Weo1.0时代,到谷歌,他说我管你什么网页,我把它细分一个层次,直接抓主题词,把主题词按照一种算法,聚合起来,让人们高效的获取,这个比网页聚合的方式高效得多,但是从本质上是和网页是一样,从内容方面找路子。所以叫做WEB1.5。FaceBook就换了一个角度,叫使用者聚合,从获取者角度搞联系,搞关系,按照信息真实的传播渠道找出路,这是就是我称之为WEB2.0,它又代表了一个时代。再过八年,我现在基本肯定,我们将进入下一个阶段:数据聚合,我从数据入手就可以把已经在网上的东西,包括比如物质的东西,世界上的万事万物都可以数据化,我们把它弄起来,我认为下一个大创新应该是这样。另外,2008年的经济大危机,现在回想起来正好是FackBook创造了平台分离,应用平台。是不是预示着现在大家做常规性的小动作肯定不是好时机了?而想办法参与目前一次大创新才是生路,所以我觉得最近讨论大数据很热,各行各业的人都来了,甚至政府高官都很关注。