大数据技术就在生活中: 登机牌、阅卷与 Map-Reduce(归约)

2. 对象:PB级的数据,例如来自云、来自分布式文件系统的文档。

3. 并行处理,多个(几百—几十万个,甚至更多)处理单元(电脑,CPU,人员);

4 有序:在机场,车站,当客户增加,仅仅增加服务台来做归约(Reduce),常常不够有序,增加一个映射(Map)机制,把被处理对象分配到处理单元,是不可少的环节。春运中人们更体会到这一条。

5 多层映射,多层归约 ;在首都机场我们看到了映射有三层,第一次映射到值机台分区,分而治之;第二次次到值机台,第三次映射到《乘客,航班号,座号》三元组;根据实际情况,归约也可以是多层次的。

这里也要强调,小样和真实还有差距,量变超过了一定阈值,会引发质变,这一点在实践中必须注意。

还有两个例子,根据经验,做为练习题效果更好,

习题1 大型会议接送VIP客人 。

大型会议中VIP客人(特邀报告人, 著名学者等)较多。接送小组把航班火车信息收集工作落实到人,一人包几位VIP,然后把接送任务分发给接送车辆司机,请画出映射-归约图。

提示:对比登记牌例子,接送小组相当于中的值机台,而接送车辆相当于航班。

习题2 大型会议报告分会安排 。

大型会议有众多论文,按内容分类,需要在不同时间地点的不同分会报告,请画出映射-归约图。

提示 提示:对比登记牌例子,内容类别相当于值机台,分会相当于航班。