2012年IT趋势调查:大数据应用刚刚起步

2012年,大数据成为绝对的焦点。数据对于企业而言,是一种重要的战略资产,谁能把握这一机遇并迅速行动起来,就能在未来的竞争中占得先机。管理咨询公司麦肯锡认为,数据逐渐成为重要的生产因素,人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。大数据将会创造一个新的经济领域,该领域的全部任务就是将信息或数据转化为经济利益。

  在过去的一年里,大数据给IT业界带来新的活力,新产品和解决方案层出不穷。针对大数据时代的新机遇、新挑战,IT168近期展开大数据应用专项调查,目的是通过调查结果揭示大数据时代下数据管理与分析应用产生的变化。这里所谓的数据的管理与分析应用,具体来说就是数据库及其他数据管理软件、数据挖掘和数据分析产品,以及商业智能工具。

调查主要结论及背景介绍

  调查主要结论:

  1.企业用户每月新增数据在500G以上的,占到所有被调查者的16.67%,新增数据规模还未达到企业无法掌控的程度。

  2.企业用户认为当前最困扰的两个问题是数据读写瓶颈和数据类型多样化。

  3.关于数据挖掘与数据分析应用,企业用户最担心的是分析不准确和分析速度慢。

  4.Apache Hadoop的普及水平超出想象,其比例占到所有数据应用服务商的9.01%,排名第四。

  5. 56.31%的企业用户对大数据的投入小于50万元,仍处于初级阶段。

  6.大数据的部署还处在初级规模,潜力巨大,0-5个节点的企业用户比例为40.54%。

  7.分布式存储与计算、内存数据库和云数据库成为用户最关注的三大新技术。

  一、调查背景介绍

  2012-2013中国IT技术趋势大调查活动于2012年10月16日启动,历经1个月的时间。在线调查期间,受到了来自ITPUB、ChinaUnix(以下简称CU)以及其它合作网站的网友的极大关注和积极参与。目前调查已经完满结束,所有的数据都在后台整理和统计之中。本次网上调查共回收调查问卷17,101份问卷,其中合格问卷为14,522份。从整体上看,今年的调查更专注,无论从数量上还是质量上都较去年有比较大的提高。

  本次调查的内容涉及:企业信息化、桌面虚拟化、Hadoop架构、下一代防火墙、BYOD、IT运维和大数据应用等7方面的研究成果,这些将最终形成《2012-2013年IT技术应用趋势调研报告》,并将整合到《2012-2013中国IT应用技术蓝皮书》中,于2013年4月份第四届数据库技术大会上对外发布。

  作为2012-2013中国IT技术趋势大调查活动的一个重要组成部分,大数据应用调查共收集有效问卷2221份,被调查者所属行业和企业规模如下图所示:

2012年IT趋势调查:大数据应用刚刚起步
▲被调查者所属行业

  由上图可以看出,参与此次调查的用户几乎遍布了所有行业,其中人数最多的是三个行业是IT业、互联网和制造业,分别占到25.68%、20.72%和12.16%。其次是电信、金融、教育科研和医疗行业的用户,而零售、能源和物流的人群相对较少。

2012年IT趋势调查:大数据应用刚刚起步
▲被调查者所在企业的规模

  从企业规模来看,1000人以上的大中型企业占据主流地位,为总体被调查者的43.59%。而100-999人的中小企业,即上图中100-249人、250-499人和500-999人的总和更是超过被调查者总数的一半,小微型企业在本次调查中所占比例较少。

  本次调查的主题是大数据应用。大数据从其概念上讲,包括四个关键特性,即海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。作为最基础的数据规模,参与调查的人员所在企业每月新增数据规模如下图所示:

2012年IT趋势调查:大数据应用刚刚起步
▲被调查者所在企业每月新增的数据规模

  被调查者所在企业每月新增数据规模在0-10G的占到26.13%,11-100G的占到33.33%,101-500G的占到23.87%,500G以上的占到16.67%。从这个数字可以看出企业目前的数据增长规模不断上涨,但还未达到企业无法掌控的程度。每月新增数据规模在500G以上的用户多来自互联网和电信行业,传统企业数据增长量基本保持在500G以下的水平。

  但未来数据的涨幅可能会受到社交网络和移动互联网的影响,非结构化数据的比例逐渐增加,导致总数据量的暴涨。根据IDC今年一项研究显示,未来10年全球数据量将以40%的速度增长,到2020年将达到35ZB(Zettabyte),其中80%为非结构化数据。然而这仅仅是个开始,未来数据量将达到什么级别,我们无法想象。


  二、企业大数据需求分析

  对于企业而言,部署大数据解决方案有两个前提:一是有部署的需求;二是有部署的条件。部署的需求是指企业现有数据系统架构能否满足数据管理与分析的需求;部署的条件是指企业是否有能力部署,以及企业内外部环境是否适合部署大数据解决方案。首先来看一下部署的需求:

企业大数据需求分析
▲被调查者认为企业数据系统架构存在的问题

  针对企业的数据系统架构,被调查者认为运营成本过高、资源利用率低、应用部署过于复杂和扩展性差这四方面的问题几乎同等重要,其中运营成本过高以27.74%成为被调查者眼中企业数据系统架构最严重的问题。因此,如果企业部署新的大数据解决方案,就应摒弃原系统中的问题,或者改良系统架构,或者推倒重来。

企业大数据需求分析
▲被调查者所在企业面临的数据技术难题

  在大数据的影响下,现有数据系统架构的问题日益凸显,在企业面临的数据处理技术挑战的调查中,23.87%的被调查者认为数据读写瓶颈是最大的技术挑战,20.16%选择了数据类型多样化,16.26%选择了存储压力,16.26%选择了系统性能瓶颈。从排名前三位的技术挑战中可以看出,大数据中快速的数据流转(velocity)和多样的数据类型(variety)成为最困扰企业用户的两个关键特性,同样也是最亟待解决的关键问题。

企业大数据需求分析
▲被调查者所在企业数据挖掘和分析面临的问题

  关于数据挖掘与分析应用,29.40%的被调查者认为这些应用最大的问题是分析不准确,21.36%的被调查者选择了分析速度慢,18.34%选择了价格昂贵。从这三个方面来看,用户最担心的还是企业花钱部署数据挖掘与分析类应用,却不能通过分析做出正确的决策。

  分析的速度也是一个重要的问题。随着企业数据量越来越大,进行一次分析所用的时间也越来越长。起初企业总是利用下班时间跑报表,但这种方式越来越不能满足实时决策的需求,常常会错过商机。因此从软硬件角度优化分析速度,即是企业经营决策的需求,又是数据分析产品新的考察指标。


  三、企业大数据应用现状及规划

  大数据虽然刚刚兴起,但数据在企业中一直处于核心地位,传统的数据产品,如数据库、报表系统等,在企业中部署运行多年,为企业的经营决策贡献巨大。本调查对企业用户数据产品应用现状、大数据部署现状和规划进行摸底,首先来看一下企业现有数据产品的服务商排名:

企业大数据应用现状及规划
▲被调查者所在企业数据处理产品的服务商

  由上图可以看出,企业现有数据产品的服务商,排在前六位的分别是Oracle(27.93%)、IBM(15.99%)、Microsoft(14.41%)、Apache Hadoop(9.01%)、EMC(8.33%),以及SAP(7.66%)。Oracle以绝对的优势拔得头筹,可见其在数据库、数据分析和大数据方面的地位。

  值得一提的是Apache Hadoop的应用比例已达到所有被调查者的9.01%,排名第四。Hadoop的普及水平已超出我们的想象,成为继Oracle、IBM和Microsoft之后又一主流平台产品。但Hadoop不是万能的,其仍存在局限性,针对结构化数据的管理,还应选用传统关系型数据库及其他数据管理产品。

企业大数据应用现状及规划
▲被调查者所在企业大数据投入情况

  关于企业在大数据领域的投入问题,28.83%的被调查者选择20-49.9万元,27.48%的被调查者选择0-19.9万元,17.57%的被调查者选择50-99.9万元,即56.31%的企业用户对大数据的投入小于50万元。另外,150万元以上的只占13.96%。由此可见,企业对于大数据的投入仍处于初级阶段,并且以Hadoop和NoSQL为代表的大数据基础设施都属于开源产品,硬件方面也可使用廉价的PC服务器,所以投入并不高。

企业大数据应用现状及规划
▲被调查者所在企业部署开源大数据解决方案的计划

  如前文所述,Hadoop、NoSQL这样的开源大数据解决方案能够节省资源、提高系统利用率,是性价比极高的选择。由上图可知,19.82%的企业用户正在使用开源大数据技术,22.97%的企业用户计划于1年内部署,9.91%计划于2年内部署,没有相关计划和不确定的人群占到47.29%。由此看出,Hadoop等开源大数据技术相当热门,已经有至少52.71%的企业用户已经或计划部署相关解决方案。

企业大数据应用现状及规划
▲被调查者所在企业大数据的部署规模

  从被调查者所在企业考虑或已经部署的大数据节点来看,选择0-5个节点的为40.54%,6-10个节点的为22.07%,11-20个节点的为16.67%,21-50个节点的为10.81%,51-100个节点的为2.70%,而101个以上节点的为7.21%。由此可见,大数据的部署还处在初级规模,大多数企业还未部署,或部署少量节点。相信随着数据量的不断增加,大数据相关的节点规模会不断增加。


  四、企业大数据应用选型依据

   既满足大数据的部署需求,又满足大数据的部署条件的企业在选型时主要考虑哪些因素?选择大数据产品时需要具备哪些关键特性?对服务商又有哪些要求呢?下面的调查结果将给出答案:

企业大数据应用选型依据
▲被调查者所在企业做数据产品选型时考虑的因素

   由上图可以看出,“了解同行企业应用”排名第一,占32.44%;选择“进行数据测试”的比例为23.32%,紧随其后,排在第三位的是“访问相关软件公司”,占22.52%;另外观看软件演示和访问软件典型用户也占据一定比例。从排在前三位的因素可以看出,企业更愿意与同行业的竞争对手比较,如果同行业中的优秀企业部署了相关应用,其他企业也会跟风而上。

企业大数据应用选型依据
▲被调查者关注的数据产品特性

   在数据产品选型时,用户最关注的是产品的哪些特性呢?有22.90%的被调查者选择“产品的易用性”,18.53%的被调查者选择“产品的价格”,12.76%选择“产品服务商品牌”。其他选项中“是否兼容不同应用”、“产生的价值”和“能否支持数据分析”紧随其后。从调查结果中可以看出,数据产品的易用性是用户最关注的问题,因此界面简单、人性化、学习曲线低的应用更受欢迎。另外,比起服务商的品牌效应,产品的性价比似乎更加重要。

企业大数据应用选型依据
▲被调查者所在企业选择服务商时考虑的因素

   在选择数据产品服务商时,用户最看重的是性价比、稳定性,所占比例达到39.76%;其次是该服务商在同行业中的经验,占23.41%;另外现有系统升级(即采用原系统服务商)也是企业选择服务商的考虑因素之一。相比这些,品牌效应似乎不那么重要,这也同样印证了前面的调查结果。由此可见,企业在选择服务商时,最主要考虑的因素还是性价比和稳定性,在部署的过程中的经验和能力也很重要。


  五:企业大数据应用趋势分析

  此次调查的最后一项是了解被调查者对大数据应用趋势的分析,主要分为两个方面的内容,一是数据管理的新技术预测;二是商业智能的发展趋势。通过对技术趋势的调查,了解被调查者的真实需求。

企业大数据应用选型依据
▲被调查者关注的数据管理新技术

  如上图所示,分布式存储与计算成为最受关注的数据管理新技术,比例达到29.86%;其次是内存数据库技术,占到23.30%;云数据库排名第三,比例为16.29%。此外,列式数据库技术、NoSQL也获得较多关注。从调查结果来看,以Hadoop为代表的分布式存储与计算已成为人们心目中大数据的关键技术。以SAP HANA为代表的内存数据库技术和以SQL Azure为代表的云数据库技术,也将成为占据重要地位的数据管理创新平台。

企业大数据应用选型依据
▲被调查者如何看待商业智能的未来

  对于商业智能未来的趋势预测,调查显示排在前三位的是丰富的挖掘模型、实时的分析、精准的特定目的分析,其比例分别为27.22%、19.88%和19.11%。其后是社交网络分析、云端服务和移动BI。由此看出人们期待商业智能应用能够在这些方面做出改变。

  六、总结

   本次调查针对大数据的应用现状和前景展开,由调查结果可以看出,目前国内大数据的应用还处于初级阶段。大多数企业已经意识到大数据蕴含的商业价值,并开始部署或者计划部署大数据解决方案。而大数据的部署目前还停留在基础设施建设层面,应用还不成熟。未来随着大数据基础设施的不断完善,上层应用也会逐渐完善,挖掘更多企业价值。