够快服务的云迁移之路

够快是国内一家基于云存储的协同服务提供商。面向各类规模的企事业单位、政府机关以及学校团体,提供建立在阿里云平台上的云存储以及基于云存储的各类协同应用服务。InfoQ就够快的架构向云端的迁移等问题对够快工程师进行了采访。

相关厂商内容

分享云计算在传统IDC、移动互联网、SaaS应用、PaaS平台等领域应用,阿里云开发者大会,免费报名中!

如何有效利用云计算的弹性特性满足需求、抵抗挑战?

参与讨论云存储的易用性、高可扩展、安全性,尽在阿里云开发者大会。

QCon杭州2012大会“社区之夜”开放报名中(10月26日 周五)

Facebook HBase团队负责人Nicolas,确定QCon杭州分享主题:Facebook的Hbase解决方案

相关赞助商

阿里云开发者大会,2012年11月8日~9日,免费报名中,了解详情!

InfoQ:“够快”为什么要将业务放到云上?之前是否有一个阶段是没有将服务器放到云上而是自己来负责服务器的处理?

蒋烁淼:之前有。

InfoQ: 之前的那种方式遇到了什么问题?为什么会决定把业务迁移到云上?

蒋烁淼:是这样的,首先一点就是说像我们把业务放在自己部署的服务器上,一开始是规模相对较小,服务器加起来不超过20台,那么给我们的感觉是自己能够维护的过来,当时也开发了一些程序来做监控、管理,而真正遇到的瓶颈产生在网络方面。因为我们做的是存储服务,做存储服务很重要的一点就是网络。因为中国的网络服务商有联通、电信、移动等,在这种大的网络环境下,我们就需要至少建立联通、电信两个机房,并且我们也就是这样做的,这就导致我们的机器数量翻倍。并且随着业务的发展,我们需要管理的服务器规模差不多接近100台,这样我们的服务器就相当于构成了一个私有云,但是我们发现除了机器本身的成本以外,我们还需要额外的付出:

针对现在的100、200台机器的私有云进行优化,需要更强大的运维开发团队、需要更好的带宽。

我们的服务器放在不同的机房,在每个机房还需要专门的维护人员。因为我们做的是云端存储,硬盘很容易损坏,因此当这样的情况发生以后需要及时更换硬盘、修复数据,那就要求我们随时对服务器进行监控。实际上在服务器监控、管理这一块耗费了我们很大的精力。

阿里云的出现就给我们这样的感觉:虽然其硬件、带宽成本比我们自己部署要贵一些,但是我们节省了很多隐形成本。我在使用阿里云的时候,深有体会的这一点。在我们自己部署服务器的时候,一开始放置了10、20台服务器,但是如果后来业务暴增需要100、200台机器 ,但是电信机房没有空余的机位,我们就只有两个选择,一是将服务器换一个机房,另一个就是在另一个机房部署服务器,然后通过拉光纤等方式将两个机房串起来。这个成本是很大的,虽然有足够的资金来做这个事情,但由于我们还要提供持续的服务,所以时间上我们至少需要一、两天来部署这个架构。在这个背景下,我们选择使用阿里云。

InfoQ:我们相信云可以给企业带来很多帮助,比如成本上的降低,但是云不是万能的,那么够快在使用阿里云的过程中是否遇到过没有想到的问题?又是如何解决的?

蒋烁淼:实际上我感觉“够快”是伴随着阿里云一起成长的。我们最早用阿里云的时候,包括OSS系统,还是存在很多问题的,我们也反馈了很多bug。其实,我感觉这个事情需要客观的看待,我相信云现在还存在很多问题,但是这些问题我们自己做也会碰到,不同的是现在是阿里云来帮助我们解决问题。拿前几天遇到的一个情况来举例:前几天我们发现网站突然访问不了,后来我问了一下阿里云,他们说是遭遇到了DDOS,然后他们差不多用了2个小时就把攻击流量停止了。因为之前我们自己部署服务器的时候也遇到过这样的问题,就是也被DDOS,对于我们就需要一星期或者被迫换IP的方式才能将这个DDOS躲过去。实际上这也是另外一个问题,比如我们在运营的时候服务器宕掉、被DDOS或是阿里的误操作导致服务器宕机,但是因为我们自己也部署过机器,也不确保自己的技术能够保证万无一失,包括盛大或者亚马逊的云也不能够完美无缺,而这些问题在我们个人运作时会遇到时,那么阿里云也会遇到。不同的是当我们个人遇到的时候可能是自己想办法去解决,而现在就靠托管的服务商来解决,从经营角度上就是不知道他什么时候会解决这个是差距,其他的都一样。实际上我觉得中国云服务刚刚兴起,包括盛大、阿里的服务还有待提高,但是我相信他们如果把这个服务做下去,必然比我们自己做发展的要快。毕竟跑在他们机器上的服务不止我们自己一家,我可能只会遇到自己的bug,不妨说我提供了一个bug给阿里云,他就会将这个bug解决,那么整个平台就不会再遇到这个问题。

InfoQ:我是不是可以这样认为:“够快”是和阿里云一同成功,从无到有,从小到大发展起来?

蒋烁淼:是的,我们的确见证了阿里云的成长,他们的很多服务都不错,包括测试服务、OSS等。

InfoQ:对于使用云的企业来说,我觉得对于团队带来的变化是不是运维成本急剧降低?

蒋烁淼:运维分两块,一个是客服运维,这个是不会减少的。主要是服务器的运维的成本降低,现在我们就一个人来负责。他就是每天看下阿里云服务器的运行状态,比如空间、网络、配置是否正确,如果出现异常就反馈给阿里云,然后由他们进行修复。

原先我们自己部署服务器的时候,如果要扩大机房就需要招至少5个人的团队来做这个运维管理。

InfoQ:看来阿里云给够快提供了生产力提升和成本降低,间接造成企业竞争力的提高。

蒋烁淼:是的,那么从另外一个角度,我们现在是为其他的企业提供包装过的云服务。在我们的产品使用了阿里云以后就会增强用户对我们的信心,因为服务是阿里提供支持,用户感觉就会对于服务感觉很好,包括数据安全性等各个方面会更放心。同时,数据托管在阿里云,我们自己也比较放心。

InfoQ:最后一个问题,当初在选择云服务提供商的时候,是哪些因素使得你们选择阿里云?

蒋烁淼:最重要的一个方面是访问速度。我们的这些服务主要是面向国内,当时试过包括微软在内的很多国外服务,发现这些访问速度比较慢,而亚马逊、谷歌的服务容易被屏蔽。那么国内剩下的大公司就是盛大、阿里,当然现在国内的其他小公司也提供云平台,我个人感觉他们只是提供虚拟机,因为我们的业务要求需要服务商提供整套解决方案,包括存储、结构化数据查询、虚拟机、负载均衡等。

阿里云是内置的超级网络,教育、电信、联通等使用同一个IP地址,网络优化到访问速度都差不多。基于这些,我们选择阿里云。

同时还考虑到用户的体验,因为对于用户而言,需要用户来选择联通或者电信入口,如果用户选错了,稍后的服务就会不顺利。