优步在Hadoop上做增量处理的案例_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

这类SQL引擎的另一个重要进步是对诸如ORC/Parquet等列式文件格式的支持，这对于分析工作是有着显著好处的。例如，连接两个有Avro记录的Kafka主题将比连接两个通过ORC/Parquet文件格式存储的Hive/Spark的表的开销大得多。这是因为，对于Avro记录来说，你最终要反序列化整个记录，而列式文件中只需要读取在记录中会被查询所用到的列。如果我们简单地从一条编码的Kafka Avro事件中的1000个字段中投影出10个字段，我们仍然需要为所有字段花费CPU和I/O的开销。列式文件格式通常可以更为“聪明”地投影到存储层。

图三：Kafka事件和HDFS上列式文件，将10个字段从1000个字段中投影出来的CPU和I/O开销的对比。由Vinoth Chandar提供

较少的运动部件

现在被广泛实现的Lambda架构（一个基于MapReduce 和 Storm 构建的流式处理的应用架构）有两个模块：速度层和批处理层。它们通常由两个独立的实现（从代码到基础设施）来管理。例如，Storm是速度层上的一个热门选项，而MapReduce可以作为批处理层来提供服务。实际上，人们经常依赖速度层来提供更新的结果（可能并不准确），而一旦数据被认为是完整了之后，通过批处理层在稍后的时候里来纠正速度层的结果。随着增量处理的使用，我们有机会以统一的方式在代码层面和基础设施层面来实现Lambda架构。

5/12 首页上一页 3 4 5 6 7 8 下一页尾页