Facebook崛起背后的数据天才

Facebook崛起背后的数据天才

北京时间2月5日消息,目前,Facebook已经发展成为全球最大的社交网络,拥有超过10亿活跃用户。九年的成长历程中,Facebook不仅仅遇到了一般公司发展过程中常见的麻烦,也因为巨大的用户数量级,遭遇更多常人难以想象的“大数据”。Facebook崛起之路上,究竟有哪些顶级数据天才、顶尖数据技术的支持呢?以下是文章全文:

杰伊·帕瑞克(Jay Parikh)的办公桌,就放置在美国加州门洛帕克(Menlo Park)Facebook总部16号楼里,而他的行政助理吉尼·萨穆埃尔(Genie Samuel),就在离他不远的地方工作。每隔一段时间,帕瑞克都会听到萨穆埃尔咯咯地傻笑,而这就意味着,她很有可能又在Facebook上传了一些令人尴尬的照片,并且将帕瑞克标记了出来。通常情况下,帕瑞克自己Facebook页面上的通知,总会紧跟着她的笑声浮现。而如果通知没有如约而至的话,他就可能就要忙碌起来了。

帕瑞克是Facebook基础设施工程部门的副总裁,负责这个全球最大社交网络的硬件和软件。如果页面上的通知,没有在几秒钟之内直接快速出现,那么他就要仔细检查自己的工作,然后努力找到造成这种情况的原因了。麻烦的是,Facebook的基础设施,已经扩展到全球四个不同的地方,四个大型数据中心,数十万台计算机服务器,除此之外,还有更多的软件工具——深深吸一口气,你也很难在不间断的情况下,说完它们的名字。而导致通知未能出现的原因,就埋藏在这个网络的某一个角落中。

这就是为什么帕瑞克和他的团队,会打造像Scuba这样的工具。Scuba是一个具有划时代意义的软件平台,它可以帮助Facebook的工程师们,及时对公司基础设施数据进行挖掘分析。通常情况下,处理如此海量的数据是需要耗费些时间的。你甚至可能需要几个小时的时间才能处理完所有的事情。不过,对Scuba来说这就不再是问题,它是一种(in memory)内存式的数据存储——将所有的数据,存储在数百个计算机服务器高速内存中(而不是硬盘)——这意味着你可以更实时地进行数据查询。

帕瑞克表示:“它让我们能够了解基础设施工作情况——我们的服务器做得如何,我们的网络表现如何,不同地软件系统交互的如何。所以如果吉尼在一张照片中标记了我,而通知在几秒钟之内都没有显现,我们就可以查看Scuba来查找问题。”

九年之前,马克·扎克伯格(Mark Zuckerberg)在哈佛的宿舍里推出了震惊世界的Facebook,而现在它已经一举发展成了世界上最流行的社交网络。扎克伯格和他的公司,建立了这个星球上最先进的工程业务,而有趣的是,他们这样做的主要原因实在只是由于迫不得已。Facebook面临着一个独特而艰巨的任务——服务10亿个不同的用户,并且要去处理10亿个不同的消息、照片、视频,以及很多其他的数据源——这一任务对的技术要求,比你想象的还要多。

是的,Facebook的工程大军中,不乏像拉尔斯·拉斯穆森(Lars Rasmussen)这样,创作了社交搜索工具Graph Search的天才,也有帮助美化工具、测试、部署应用程序的人。而现在,Facebook的硬件工程师,也拥有像阿米尔·迈克尔(Amir Michael)这样的天才,他们负责服务器设计、存储设备以及整个数据中心管理。

Facebook还打造了一个,由顶级工程师组成的数据处理团队——这项工作在现代网络中的重要性,已经日趋明显。Scuba仅仅只是Facebook众多“大数据”(Big Data)软件平台的冰山一角——利用分布式系统,让数百上千个计算机上,可以协同分散处理一个单一的任务。

包括拉古·穆尔蒂(Raghu Murthy),艾弗里·清(,Avery Ching),约什·梅茨勒(Josh Metzler)在内的工程师们,打造了这些出色工具。它们不仅仅能够排除Facebook数据中心内的故障,还能帮助Faccebook数据科学家,分析Facebook的在线应用的有效性,以及用户的行为。

虽然谷歌(微博)的“大数据”平台,仍然被公认为全网最领先的。但是随着Facebook开始拓展自己的网络帝国,这家社交网络巨头并没有被谷歌甩开太远,而与谷歌不同的是,Facebook希望与全世界共享它的软件。谷歌总是在分享自己的想法、思路,而Facebook则是在分享自己的代码,并希望其他人能够好好利用。帕瑞克表示,“我们公司的使命,是让全世界连接在一起,并且变得更开放。而在我们进行基础设施建设的同时,我们也在帮助促进达成这一使命。”