大数据存储:扩展Hadoop的十大要点

7. 构建弹性数据湖

构建数据湖并非易事,但大数据存储的需求可能需要数据湖。有许多方法可以着手构建,可是哪一种才是合适的方法?合适的架构有望构建一个活跃、弹性的数据湖,可以存储来自所有数据源、采用多种格式的数据,包括结构化数据、非结构化数据和半结构化数据。更重要的是,它必须支持就在数据源处执行应用程序,而不是从远程源处执行,那样需要移动数据。

遗憾的是,传统的架构和应用程序(即非分布式)并不令人满意。由于数据集变得更庞大,必须将应用程序移到数据,而不是将数据移到应用程序,因为那样延迟太长。而有了Hadoop/Spark,分析工作流变得更具破坏性了,因为数据和应用程序从不同的孤岛来执行,迫使数据移动并存储到多个平台上。

日立公司大数据分析高级产品营销经理弗雷德·欧(Fred Oh)说:“理想的数据湖基础设施能够存储单一数据副本,并且让应用程序针对单一数据源执行,没必要移动数据或制作副本(比如在Linux、虚拟机和Hadoop之间)。”

8. 集成分析

分析不是一种新的功能,多年来它就存在于传统的RDBMS环境中。不同之处在于,出现了基于开源的应用程序,以及能够将数据库表与社交媒体和非结构化数据源(比如维基百科)集成起来。关键在于,能够把多种类型和格式的数据集成为一种标准的数据,那样就能更轻松、更一致地完成可视化和报告。拥有完成这项工作的合适工具集是确保任何分析/商业智能项目成功的关键。

欧说:“说到分析,重要的是要明白真正的挑战不在可视化,而在数据集成,尤其是集成来自多个数据源、采用多种格式的数据。一套全面的数据集成工具和基于GUI的集成控制台可以克服企业在大数据方面的挑战。”

9. 大数据遇上大视频

大数据够糟糕,大视频更是为这个现象添加了压力。比如说,企业日益使用视频监控,不仅仅出于安全性,还为了提高运营和工业效率,简化流量管理,支持监管合规及另外几种使用场合。很快,这些数据源会生成大量内容。那些要处理大视频的企业最好确保为此建立了合适类别的数据存储系统,无论是不是基于Hadoop。

欧说:“这些应用程序正在带来大量的视频数据,要是没有合适的专用存储解决方案,这些数据会带来诸多问题,比如数据丢失和视频质量下降。”

10. 没有赢家

最近Hadoop无疑攻下了许多地盘。所以,随着数据存储量急剧增长,它会是最终赢家,击败其他所有方法吗?不太可能。

比如说,由于OLTP方面的固有优点以及要求100%的可用性,基于SAN的传统架构不会在近期被取代。但是如果需要分析以及与非结构化数据(比如社交媒体)集成,那么评估超融合平台就有引人入胜的理由,因为超融合平台将服务器计算、分布式文件系统、Hadoop/Spark和更新颖的数据库应用软件与基于开源的分析工具整合起来。

因此,最佳方法将超融合平台与分布式文件系统整合起来,并集成了分析软件。基于Linux的传统RDBMS应用(DWO和数据市场等)可满足这个用途,Hadoop/Spark/MapReduce则应对新的社交媒体挑战,使用服务器虚拟化提供了灵活性和效率。但是这每种环境都可能形成不同的数据孤岛。理想的方法就是同时支持这三种环境,并增添这种功能:可在数据源处执行应用程序,并减少分析工作流中的数据移动。

欧说:“成功的关键在于实施的系统考虑到了可扩展性、分析集成和专业知识。最终,存储专业人员需要预料未来的要求,而不仅仅着眼于存储。”