大数据是否大得难以处理?

中国IDC圈9月5日报道:数据信息从来没有以今天这么快的速度发展过,也从未如今天这样如此大量的被收集过。能够利用高性能的分析能力来处理海量的各种格式的数据信息便是为什么大数据在当今具有如此大的吸引力的原因了。其已然成为了当今技术活动的一个主导话题,无疑是2013年度除了云计算、社交媒体和移动设备之外的又一大顶尖的技术趋势。

尽管现如今的企业对于大数据项目充满了热情,但究竟有多少关于大数据的探讨最终变成了实际执行的大数据项目呢?到底是哪些因素阻碍了企业对于大数据项目的实施呢?为了找出企业迄今没有对于这一时下炙手可热的技术做出实质性进展的原因,计算机世界网站从今年5月开始在香港地区展开了一项调查。

该项调查的重点是基于用户对于大数据的“三大特性”(数据量、种类、输入和处理速度)的态度进行的采访,这三大特性定义了大数据。截至到七月,有140多名香港地区的IT专业人士参与了这项仍在进行中的调查。

大数据项目从讨论到正式部署

首先统计的是受访者所在企业目前的状态和对大数据采用的计划。调查结果显示,采用率很低,仅有五分之一(20.1%)的受访专业人士表示,他们的企业目前正在使用大数据技术进行生产,另外,有9.7%的机构计划在未来12个月内实施大数据项目。

但也有40.3%的IT专业人士表示,他们所在的企业没有任何实施大数据项目的计划。而表示不确定的受访者也占到了29.5%的比例。

对于该项新兴技术采用的趋势和态度不同的企业各有不同:大多数企业往往对这项新技术持怀疑、等待和观望的态度。但是,这项调研也显示了香港地区的大多数IT专业人士都对他们所在的企业实施大数据计划的态度是十分鲜明的:它们要么非常积极的赞成该技术,要么直接持拒绝态度,并没有留下一点持怀疑态度的空间。

大数据项目的驱动因素和其所面临的挑战

为了更好的了解市场对于该技术的热情和接受程度,我们让受访者基于他们对于大数据三大特性的印象对大数据的益处进行了评价。

大数据的收集和分析大量数据的能力获得最高评价,有47%受访者将这一特性评为最重要的益处。评价第二的是:处理各种数据格式的能力(占29.1%)。大数据技术传递速度和性能分析是排名最低,只有23.9%的IT专业人士认为该特性是其最重要的益处。

调查显示,关于实施大数据项目所面临的挑战:数据集成工具较差(占48.8%),数据质量差(占39.8%),缺乏数据架构(占39%)和混乱的数据所有权(占39%)位列受访者们调查结果的前四名。

在这四大因素中,前三名的挑战与技术不成熟和数据管理有关。尽管这些问题都是相当麻烦的,但他们主要是与技术相关的问题,通常是容易解决的。

好消息是,更为复杂的挑战问题,诸如开发商业案例(占24.4%)或企业内部文化冲突(占14.6%)的排名很低。这一发现表明,企业用户均普遍意识到大数据的益处,今后在员工教育和说服用户方面的不用花费大量的资金投资了。

数据量与种类

除了研究企业部署大数据项目的动机和面临的挑战,本次调查还进一步的研究的大数据的“三大特性”,以了解进行大数据管理的需求和期望。

在香港,被企业视为大数据的数据量标准与全球标准是持平的。大约三分之二的本地IT专业人士认为,大数据的数据量将至少要在10TB以上,接近20%的受访者不是,超过100TB的数据量才能被认为是大数据。

根据维基百科介绍,决定大数据大小的指标永远在变,截至2012年,大数据中的数据集可以由几十兆字节至数拍字节的数据组成。这指标不固定是因为传统数据库管理系统以至NoSQL等新型数据库,它们的科技和处理大容量数据的能力不断在改进。

随着技术的进步,企业的数据量还将继续增加。除了针对数据量的调查,本次调研还试图量化数据的性质对于促进大数据增长的作用。调查采访了受访者们两个单独的问题:不同类型的数据所产生的数据量,以及可能导致大数据分析的数据类型。

调查显示,目前正在大规模产生的海量数据预计也将用于大数据分析。IT专业受访者们表示,目前产生最大数据量的来源为结构化的事务处理数据和电子邮件数据,分类占到数据量的62.7%和53%。这两大数据来源所产生的数据也是可用于大数据分析的最流行的两种数据类型。