如何应对大数据雪崩?

里约奥运会近日已落下帷幕,它不仅成功霸占了观众的社交流量,在话题上也是堪称现象级的。而这背后,大数据的成功运用可谓功不可没。从“虚拟奖牌榜”、“全视气球”、“水下计时器”、“基于数据分析的运动员训练方式”到“将寨卡病毒挡在里约奥运的大门之外”, 大数据驱动的里约奥运会被烙上了独特的科技标签。组委会CIO Elly Resende表示,大约有250家科技公司为构建整个基础设施提供了不同程度的技术。显然,“里约印象”的非凡塑造离不开强大IT基础设施的支持。

同样,对企业来说,数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。实时分析是当今企业获得可持续优势的基石。更快获取见解并据此采取行动已日益成为许多企业成败的关键。

随着数据的日益增多,企业需要更快地执行分析,这对当今的数据工作者带来了巨大挑战:你应该如何快速行动,才能确保对数据的见解始终具有价值,而且优于你的竞争对手?哪些方面的投资有助于你在这种数据剧增的环境中保持领先地位?

对所有大数据战略来说,软件必不可少,但仅有软件是不够的。各组织对快速实时决策的需求不断增长,他们必须借助存储和内存领域的创新来实现基础设施转型,才能满足这一需求。

总之,基础设施确实至关重要。为什么呢?这是因为,如果组织不对数据采取任何行动,他们就会损失资金,还会错失竞争机会。IT 团队有必要对支撑新一代大数据解决方案的底层基础设施进行持续投资,但这种投资不应该仅是购买合适的新硬件。企业还需要认真优化和调整现有硬件系统,确保系统具备充足的性能、容量和吞吐量,加快数据处理速度,并推进到规定的分析阶段。

当然,要想利用大数据和先进的分析工作负载(如 Hadoop 和 Spark),各组织需要克服很多困难,其中最大的挑战与底层数据有关。具体来说,就是数据的“3 V”:种类 (Variety)、数据量 (Volume) 和速度 (Velocity)。数据的这三项特征都非常重要,其中速度(即不断提升的数据创建和决策速度)尤为重要。

为什么在优化大数据时必须要关注速度呢?这在一定程度上由其他两个 V(即种类和数据量)所致。大数据系统捕获和处理的不仅仅是文本;传感器、视频、音频、社交媒体以及多种多样的非结构化数据都有成为深度分析之瓶颈的潜在可能。当然,目前(更不用说将来)庞大的数据量会让这一问题雪上加霜。如果不密切关注速度以及底层的存储和内存基础设施,大数据项目将无法发挥全部潜力,同时会大幅增加企业的财务和运营成本。

存储速度更快

在 TechTarget 的购买者中,数千位来自北美的 IT 决策者在访谈时都表示,他们最希望大数据存储能够满足延时、容量和带宽这几大存储功能要求。其中,延迟更是大数据计划必须妥善处理的一大问题。从根本上来说,延迟会损害服务器处理更大数据集的能力,导致工作负载瘫痪,并使得完成先进分析工作负载的过程更费时、代价更高昂。事实上,延迟比容量或 IOPS 重要得多,对大数据和其他先进分析工作负载而言尤其如此。

实际上,基于帧的阵列(目前的数据中心基础设施普遍都采用这种配置)采用旋转式硬盘作为存储介质,在功能上已达到极限。在空间、供电/散热成本、CPU 周期和存储容量方面,这已经从根本上耗尽了许多数据中心的能力。而这又会迫使组织设立新的数据中心,通常要耗费数百万美元的成本。

因此,这不断推动着各组织转为使用闪存/固态存储。勇于创新的组织正在重新设计自己的数据中心,将存储从 NAS 设备和 SAN 上移除,转为使用支持闪存的服务器。这有助于减轻数据中心的扩张,减少物理空间占用量,降低供电和散热成本,并提高整体运营效率。

“如果你询问托管大数据的最好方法,大部分的大数据倡导者都会微笑着回答:‘当然是采用闪存啦!’”存储行业分析师 Jon Toigo 表示,“因此,目前,以 Oracle 和 SAP 为首的数据库制造商重新调整其产品也就不足为奇了。Oracle 和 SAP 的大数据设备采用全套闪存和动态 RAM 来托管其常驻内存的数据库。

当数据科学家搜索各个数据块以获取见解时,从 Hadoop 到 Spark 的迁移(无论是两者间相互协作,还是用 Spark 替换 Hadoop)已经对存储和内存基础设施造成了压力。旋转式硬盘速度过慢,无法跟上提取关键见解所需的迭代机器学习工作流。投资混合阵列最初或许能够节约成本,但很可能会导致无法获取关键见解,因为它们需要等待硬盘找到必要的数据。