【揭秘】腾讯云数智98.8秒完成100TB数据排序的架构和算法

上周,腾讯云大数据联合团队以98.8秒的成绩完成100TB数据排序,摘得2016 Sort Benchmark全球排序竞赛冠军。在这次竞赛中,腾讯云数智分布式计算平台分别夺得Sort Benchmark大赛GraySort和Minutesort的冠军,创造了四项世界纪录。(了解详情请点击《全球计算奥运冠军花落腾讯,腾讯云数智打破4项世界纪录》)

 

此次参赛的腾讯云大数据联合团队,是由腾讯云存储产品中心、腾讯数据平台部组成,团队成员在大数据技术和应用管理上都有着非常丰富的实践经验,尤其是腾讯数据平台部一直在管理的腾讯大数据集群,是世界上最大的大数据集群之一。

 

这样一支颇具实力的团队是如何应对这场竞赛的呢?他们遇到了哪些挑战?参赛过程中他们如何搭建分布式系统软件架构?又进行了哪些软件算法优化?腾讯云数智究竟是一款怎样的产品?

 

带着这些疑问,我们采访了此次冠军团队的总负责人-腾讯云副总裁、腾讯数据平台部总经理蒋杰,请他为大家讲述冠军背后的故事。

 

1.本次参赛的过程中,团队经历了哪些困难?是如何克服的?

 

蒋杰:此次参赛还是经历了不少困难的。我们在调优的过程中,发现网络IO和磁盘IO跑不到我们理想的极限能力,其实在当时我们跑出来的成绩已经很不错,但是整个团队没有放过任何一个可以提高性能的机会,从架构到代码细节,到硬件的驱动层,大家加班加点不停的提出优化方案和尝试,最终达到了我们理想成绩。精益求精、追求极致是我们每一个技术人员都应有的态度。

 

另外,比赛要求的提交时间,突然宣布提前了一个月,这应该是很多参赛团队没预料到的。但这也恰恰突出了各团队在技术积累的重要性;我们团队有着多年的技术积累,平时不断苦练内功,为我们最终在全球计算奥运会上夺冠打下了坚实的基础。

 

2.外界有质疑说这次参赛是靠成本硬件堆砌,请问今年我们的参赛成本究竟是多少?

 

蒋杰:我们拿去年冠军的硬件配备做了一个对比。在