云构架:如何看待可靠性问题

摘要:讨论架构可靠性,目的是为了避免导致关键应用程序失败的单点故障,为了不发生灾难性的错误,减少那些会导致巨大的经济损失和企业的品牌受损的的事件。下面是一些存储和网络诊断的问题,我需要列出在公司内的排名前十位的应用程序。请注意,要问一些与所有程序都相关的问题,而另外一些问题只需要与给定领域相关。我打算把重点放在支持排名前10位的应用程序的存储器和网络产品领域。

你如何知道云供应商提供了合适的网络服务架构?格雷戈里Machler提出了这些问题。

由高级管理员Gregory Machler于2011年7月18日东部时间下午3点38分写到:“我一直是作为一些复杂应用程序的一个建筑师,我非常关注关于公共/私有云应用的建筑评估风险。传统的风险评估侧重于外部/内部机密信息的获取渠道,如社会安全号码,信用卡号码,和银行的自动取款机的PIN码。获取控制网络保护是非常重要的,因为他们能够抑制风险。”

我所感兴趣的东西有点不同,我称它为架构的可靠性。目的是为了避免导致关键应用程序失败的单点故障,为了不发生灾难性的错误,减少那些会导致巨大的经济损失和企业的品牌受损的的事件。因此,我应在哪里开始挽救架构呢?下面是一些存储和网络诊断的问题,我需要列出在公司内的排名前十位的应用程序。请注意,要问一些与所有程序都相关的问题,而另外一些问题只需要与给定领域相关。我打算把重点放在支持排名前10位的应用程序的存储器和网络产品领域。

针对所有应用程序存储体系结构

只有一个SAN供应商用于存储所有的应用程序吗?

重复数据删除如何处理?

所有的应用程序只有一个SAN交换机厂商吗?

供应商使用的仅仅是一个数据复制吗?

所有的应用程序的数据加密用的只有一个加密厂商吗?

给定的加密工具用于哪种加密算法?

供应商只使用有一个PKI来管理证书吗?

其余的相关数据证书加密存储在哪里?

每个应用程序的存储架构

应用程序是在什么存储子系统上运行的?

其他应用程序也在相同的子系统上运行吗?

存储子系统上的数据也可以在其他地方复制?还是这只是唯一的副本?

如何满足一个给定的应用程序处理更多数据存储的需要呢?

SAN交换机如何用于和存储子系统之间的链接?

什么样的网络组件被用于从一个数据中心到另一个远程数据中心复制到SAN数据?

什么应用程序执行数据的复制?

什么是软件版本和数据复制应用程序的发布?

哪一个加密厂商是用来加密给定的存储子系统上的机密数据?

存储加密工具与其他应用程序是共享一个SAN上运行吗?

加密数据的外泄会影响多个应用程序或只是这一个应用程序?

PKI供应商是用来做什么的?

PKI软件调用是什么版本和发布?

所有应用程序的网络架构

只有一个交换机或是路由器的供应商吗?

只有一个防火墙的供应商吗?

只有一个入侵防护系统/入侵检测系统(IPS / IDS)供应商吗?

是否有只有一个负载平衡器供应商?

是否只有一个电信供应商供应互联网和/或WAN(广域网)吗?

每一个应用程序的网络架构

哪一个交换机/路由器是用于数据中心的呢?

用的是哪种型号交换机/路由器?

交换机/路由器在建筑设计中是多余的吗?

交换机/路由器的调度中使用的是什么版本的嵌入式软件和硬件模型呢?

使用的是哪个厂商的防火墙呢?

在数据中心部署的是什么型号的防火墙?

防火墙部署排列数量是有限的吗? (嵌入式操作系统版本,硬件型号,功能)?

部署的是什么样的入侵防护/检测产品?

使用的是哪个厂商的入侵防护/检测产品?

在数据中心部署的IPS / IDS是如何排列的?

部署的什么版本的IPS/ IDS软件?

用的是哪一个供应商的负载平衡器?

使用的是哪种模式的负载平衡器?

负载平衡器的嵌入式软件和硬件模型是什么版本的?

他们用是来控制全球不同数据中心之间的交通吗?

负载均衡是冗余的吗?是否其中一个能立马取代另一个呢?

因特网接入设备采用的是哪一个电信服务商?

什么广域网的电信供应商被用于数据中心之间的交通?

什么广域网的电信供应商被用于办公室和数据中心之间的通信呢?

电信设备是多余的吗?

地下的电信光纤在物理上是独立的吗?

这些问题涵盖了存储和网络诊断中的许多重要问题。我敢肯定,我还是没有概括完全,但这就应该可以给出临界网路应用程序使用基础设施云层的一些特点。这些问题就能给我们一些洞察力,给定的产品有无故障是否会影响多个应用程序。它可以帮助公司设计和调整结构,以达到在可能的情况下在所有产品中创建冗余。然后一个给定的产品的故障并不级联到多个关键的应用程序。极可能的是在建造期间准确预测和反应故障的比因故障而耽误昂贵的云服务的停机时间要节约很大一部分成本。

关于针对一个给定类型的产品是否只选用唯一的一个供应商的问题又揭示了一个潜在的企业的弱点,如果是特定产品的硬件/软件版本存在一种只有在压力条件才会发生的缺陷,那么完全依靠一个供应商可能会导致重大故障。然后,所有使用该产品的云应用程序将会产生不利影响。其他的问题论述了我所说的挤塞情况。多个应用程序共享相同的组件(存储子系统,服务器或防火墙)。该产品的故障同时影响到所有这些应用程序。

综上所述,本文讲到了建筑的可靠性。它谈到的一套问题重点存储领域内,数据的加密以及和网络领域。由于产品的成本要比建造期间应用程序停机的费用便宜得多。部署更多的产品供应商必须与限制产品相平衡的需要和功能的排列,然后灾难恢复方案的实现才可以进行测试。请参阅我的文其他章。我也会在今后的文章里,谈论设计云诊断的问题。