EC2故障:都是云惹的祸?

4月21日发生的Amazon EC2故障事件现在已广为人知。一般情况下,发生这样的事件,受到指责、责备是再所难免,更有可能被诉诸法律。但到事情发展到最后,许多人和企业都将其归咎于云计算,一致认为使用云计算存在着太多的隐患。不过,在笔者看来,这可不是一个正确的结论。此言从何说起呢?

首先,一般的云服务尤其是Amazon在过去三年里取得了非常好的成绩,它们促成了以前不可能存在的新业务模式。不管是大型企业还是小公司都在不断的借助于云服务提供大部分的IT基础设施架构。其中一些公司还表示,如果没有类似Amazon提供的云服务,他们简直就不能生存。

Amazon故障的消息之所以会受到广泛的关注是因为现在有许多的公司都依靠这类型的服务发展业务,尤其是许多公司都选择了Amazon。Amazon曾在2009年7月自豪的宣布当时有1400家公司使用了EC2服务进行关键业务的运营。至此之后,使用云计算的公司数量就以指数级速度爆增。

我们不应该指责云提供商的第二个原因在于他们并不需要对其服务的使用方式负责。一些人争论表示类似Amazon的提供商应该了解正在托管的服务,并防止“重要”的应用使用Amazon Web Services (AWS)开启。虽然这个理由看似很有说服力,但还需要细细推敲。

这个问题同样可以询问ISP(互联网服务器提供商)、电信甚至是公共服务提供商。如果所依赖的服务没有得到充分的计划,服务提供商应该负责吗?如果公共事业服务商没有预防灾难的应急通信和电力计划,他们应该阻止一家医院使用使用电话或电力服务吗?

相信大部分人和大部分法院的答案都会是“不”,事实上,这些服务提供商对其他人关于预防灾难的不作为是没有责任的。互联网服务提供商对数据流误用也是不用承担责任的,就像电信公司不用对犯罪分子使用其电话负责一样。

最后,我们不应该太快判决Amazon和其他云提供商的最重要原因在于,这又一次说明了人是关键环节。这次及其他故障都向我们揭示了这样一个道理:没有任何东西可以取代聪慧的人类和灾难恢复计划。

在近期这个事件发生期间,能够持续使用Amazon EC2的企业也有数千余家。这些企业选择了Amazon高可用功能,比如自动故障恢复和交换可用区域,能够继续保持业务的正常运营。仅运行Amazon EC2的高知名度企业包括了Netflix,以及其他保持正常在线的数千家企业。

云计算并不能减轻对计划的需求,反而更加强调该需求。随着云计算的迁移, IT架构师、首席技术官和首席信息官的价值只会越来越重要。

这并不是服务提供商遭遇的第一次故障,也不会是最后一次。任何人都不希望听到数据中心发生故障的消息,特别是IT人员。这两者的唯一区别是单一的事件同时暴露了众多设计不良的应用。

引用Amazon自有的设计准则,建立在EC2之上的优良设计构架能够保持重要信息(数据库、日志文件等等)可易于管理持久稳固且冗余的数据存储,能够进行快照、复制、分离并连接至新服务器。

真正唯一的失败是没有为本地故障作计划。Amazon提供了地区和这些地区的可用区域。具体说来,在北美地区,Amazon为东部提供了三个区域,为西部提供了三个区域。最近的故障只涉及美国东部一区的系统。

运行良好的公司已经设计了可供数十年的高可用性系统。Amazon几乎提供了容错系统所需的所有工具,但设计妥善的应急计划、部署具有弹性和容错的IT架构还是操之于使用这些服务的公司。

结语

正所谓吃一盏长一智,对于哪些还不了解IT架构和规划重要性的人来说,这必将是一个分水岭。Amazon故障事件从另外一个侧面也体现了大大小小的公司采用这些服务的速度之快。

云计算和IT服务提供商能促成新的业务模式,同时也允许现有业务简化运营。在未来新的时代里,IT不再是一个必须内部提供的资本密集型功能。云服务提供商具有更多的选择性和灵活性,但是这些选择也意味着更多的责任。

现在的形势依然是为提供关键任务IT,公司必须寻找和留住有才能的IT人才。动态业务将越来越依靠IT和提供这些服务的专业人员。

总而言之,人是最为重要的,而Amazon EC2故障事件是不是也应该被当做一次教训?