基于Docker持续交付平台建设的实践

中国五矿和阿里巴巴联手打造的钢铁服务专业平台五阿哥,通过集结阿里巴巴在大数据、电商平台和互联网产品技术上的优势,为终端用户带来一站式采购体验。本文是五阿哥运维技术团队针对Docker容器技术在如何在持续交付过程中探索和实践,目前已经将发布部署权限开放给应用开发的owner,实现7*24小时“一站式”的持续交付,整体提高了公司研发过程的交付能力。

前言

作为创业公司和推行DevOps工程师们来说,都遇到过这样的问题:

硬件资源利用率的问题,造成部分成本的浪费

在网站功能中不同的业务场景有计算型的、有IO读写型的、有网络型、有内存型的,集中部署应用就会导致资源利用率不合理的问题。比如,一个机器上部署的服务都是内存密集型,那么CPU资源就都很容易浪费了。

单物理机多应用无法对无法进行有效的隔离,导致应用对资源的抢占和相互影响

一个物理机器跑多个应用,无法进行所使用的CPU、内存、进程进行限制,如果一个应用出现对资源的抢占问题,就会引起连锁反应,最终导致网站部分功能不可用。

环境、版本管理复杂,上线部署流程缺乏,增加问题排查的复杂度

由于内部开发流程的不规范,代码在测试或者上线过程中,对一些配置项和系统参数进行随意的调整,在发布时进行增量发布,一旦出现问题,就会导致测试的代码和线上运行的代码是不一致的,增加了服务上线的风险,也增加了线上服务故障排查的难度。

环境不稳定,迁移成本高,增加上线风险

在开发过程中存在多个项目并行开发和服务的依赖问题,由于环境和版本的复杂性很高,不能快速搭建和迁移一个环境,导致无法在测试环境中无法模拟出线上的流程进行测试,很多同学在线上环境进行测试,这里有很高的潜在风险,同时导致开发效率降低。

传统虚拟机和物理机占用空间大,启动慢,管理复杂等问题

传统虚拟机和物理机在启动过程进行加载内核,执行内核和init进行,导致在启动过程占用很长时间,而且在管理过程中会遇到各种各样的管理问题。

基于Docker容器技术,运维技术团队开发了五阿哥网站的容器云平台。通过容器云平台95%的应用服务已经实现容器化部署。这些应用支持业务按需拓展,秒级伸缩,提供与用户友好的交互过程,规范了测试和生产的发布流程,让开发和测试同学从基础的环境配置和发布解放出来,使其更聚焦自己的项目开发和测试。

基于Docker持续交付平台建设的实践1

图1 五阿哥容器云整体架构

结合五阿哥容器云平台和Docker容器技术的实践,本文先介绍如何实现7*24小时“一站式”的持续交付,实现产品的上线。关于容器云平台的介绍,请关注:https://zhuanlan.zhihu.com/idevops

Docker镜像标准化

众所周知,Docker的镜像是分层的。对镜像分层进行约定:

第一层是操作系统层,由CentOS/Alpine等基础镜像构成,安装一些通用的基础组件; 第二层是中间件层,根据不同的应用程序,安装它们运行时需要使用到的各种中间件和依赖软件包,如,nginx、tomcat等; 第三层是应用层,这层仅包含已经打好包的各应用程序代码。

基于Docker持续交付平台建设的实践2

图2:Docker镜像分层约定

经验总结:如何让自己的镜像变的更小,PUSH的更快?

基于Docker持续交付平台建设的实践3

图3 优化前后对比

dockerfile构建应用镜像,在中间件层遇到一些需要安装的软件包时,尽可能的使用包管理工具(如yum)或以git clone方式下载源码包进行安装,目的是将软件包的copy和安装控制在同一层,软件部署成功后清除一些无用的rpm包或源码包,让基础镜像的尺寸更小。 Java应用镜像中并没有将jdk软件包打入镜像,将jdk部署在每台宿主上,在运行镜像时,通过挂载目录的方式将宿主机上的java家目录挂载至容器指定目录下。因为它会把基础镜像撑得非常大; 在构建应用镜像时,docker会对这两层进行缓存并直接使用,仅会重新创建代码出现变动的应用层,这样就提高了应用镜像的构建速度和构建成功后向镜像仓库推送的速度,从整体流程上提升了应用的部署效率。