Swarm的进化和大规模应用 以阿里云为例

2.aliyun.auto_scaling.step: 2

监控插件

输入: nagios, apache, docker, UDP, ….

输出: Influxdb, prometheus, kafka

蓝绿发布的事例,如图6,蓝色的应用要进行升级,怎么做呢?首先部署一个新的应用,这两个是同时在线的,它会通过SLB给它分流量,比如80%和20%,之后做验证,验证之后,发布完成,系统就会把原来老的删掉。

阿里云 云计算架构6178

图6 蓝绿发布案例

机器学习案例,假如你的集群是稳步的,有GPU机器和非GPU机器,你可以在你的Service里面注明需要两个GPU,系统会把你调度到有GPU的集群,同时把你的应用绑到GPU卡上去。

阿里云 云计算架构6281

图7 机器学习案例

version: '2' services:  inception:    image: acs_sample/inception:demo    volumes:       - inception_model/inception_model    labels:      - aliyun.gpu=2    ports:      - "9000:9000"volumes:  inception_model: driver: nas

作者简介:陈萌辉,阿里云高级专家。