2017将至，大数据准备好了么？_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

许多公司已经在充分利用混合事务/分析处理(HTAP);比如说，零售商能够迅速识别在过去一小时内最畅销的时尚商品，并立即为该商品定制优惠促销活动。

但是HTAP方面炒作得很厉害，许多公司一直在过度使用它。如果用户需要在一天内多次以同一方式查看同一数据，数据又没有什么显著的变化，那么使用内存中技术是浪费钱。虽然你可以使用HTAP更快地执行分析，但所有事务必须驻留在同一个数据库中。问题是，今天的大多数分析工作是把来自许多不同系统的事务集中起来。

云计算

混合云和公共云服务越来越受欢迎。大数据成功的关键是在弹性基础设施上运行(Hadoop)平台。

我们会看到数据存储和分析趋于融合，带来新的更智能的存储系统，它们将经过优化，用于存储、管理和排序庞大的PB级数据集。展望未来，我们可以预计会看到基于云的大数据生态系统在整个继续迎来发展，不仅仅局限于“早期采用者”。

许多公司想要让自己可以扩展的平台，通过大力投资于最终僵化的数据中心是不可能做到这点的。比如说，人类基因组计划一开始是个GB级项目，但是很快达到了TB级和PB级。一些领先的企业已经开始以双模(bi-modal)方式来拆分工作负载，在云端运行一些数据工作负载。许多人预计，随着这种解决方案在采用周期上深入发展，这个潮流会加快发展。

现在大家很重视API，以一种可重用的方式来发掘数据和功能，许多公司期望在云端和数据中心运行其API。本地API提供了一种无缝的方式来发掘传统系统，并将它们与云应用程序连接起来，这对于希望实现云优先战略的公司来说至关重要。

更多的公司会在云端运行API，提供弹性，以便更好地应对需求高峰，并建立高效的连接，从而让它们能够比竞争对手更迅速地适应和创新。

Apache Spark

Apache Spark在点亮大数据。流行的Apache Spark项目提供了Spark Streaming技术，通过主要采用一种在内存中微批量处理的方法，近实时地处理数据流。它已从Hadoop生态系统的一部分，变成许多企业青睐的一种大数据平台。

Spark现在是最庞大的大数据开源项目，相比Hadoop它提供了显著加快的数据处理速度;因此，对于程序员来说极其自然、极加精确、极其方便。它为并行执行提供了一种高效的通用框架。

Spark Streaming是Spark的主要部分，被用来借助处理器核心，流式传输大块的数据，为此将大数据分割成更小的数据包，然后对其进行转换，因而加快弹性分布式数据集(RDD)的创建。这在当下非常有用，如今数据分析通常需要一组协同运行的机器的资源。

然而值得一提的是，Spark旨在改进而不是替换Hadoop架构。为了从大数据获得更大的价值，许多公司考虑结合使用Hadoop和Spark，以获得更好的分析和存储功能。

越来越复杂的大数据需求意味着，创新的压力仍然会很高。许多公司会开始明白，客户的成功离不开数据方面的工作。不利用数据分析的公司会开始歇业，而成功的企业认识到发展的关键是数据精炼和预测分析。

2/2 首页上一页 1 2