弹性支撑百万级别直播流的乐视云“月光宝盒”是如何炼成的(内附技术干货)

项目背景

在观看视频直播中,难免会发生因为各种打断而错过一些精彩片刻的情况,这个时候,如果我们能快速穿越回去,会是怎样一种体验?乐视云“月光宝盒”可以完美弥补遗憾,让精彩不再错过。

弹性支撑百万级别直播流的乐视云“月光宝盒”归如何炼成的(内附技术干货) 1

项目挑战

“月光宝盒”是乐视云直播 PaaS  平台的一个重要服务,可以完美解决直播过程中任意时间段的时移回看,也可以在直播结束后,提供瞬时秒回功能,快速将直播信号转为点播信号进行分发,大幅提升了直播观看体验,也同时给直播运营提供了更多的可能。月光宝盒历经三次产研迭代,见证了直播流由万增至百万的快速增长,一路上我们遇到了哪些挑战?直播流的分配策略是如何进化的?源站的切片、索引存储需要做出哪些升级?以及在持续迭代过程中如何确保平滑升级等等问题, 接下来我们将从“月光宝盒”三次大的版本迭代中做出解答。

月光宝盒 V1.0

直播 PaaS 平台由原支撑乐视集团业务的直播后台技术部蜕变而成,已经持续服务于乐视网、乐视电视、机顶盒、乐视体育、乐视音乐等超过 5 年时间, 早期的直播流量在万级别(注:直播流 ID 个数,可以理解为一个直播流就是一路信号),直播信号通常以 7*24 小时长直播为主,发布会、演唱会等短直播为辅(注:这类短直播无直播内容时,通常会配置一个指定的备片来持续代替直播信号源,以提升断流时用户播放体验),因此在 V1.0 架构中,这阶段的直播生产调度分配算法采用简单的配置策略,将直播流与设备组进行关联绑定,直播流对应的切片与索引采用简单的本地存储。直播、时移回看、打点录制均在该组设备中并行提供服务。

弹性支撑百万级别直播流的乐视云“月光宝盒”归如何炼成的(内附技术干货) 2

V1.0 架构图

注:

绿色表示直播流长期处于使用状态。

紫色表示直播信号暂时中断,但源站配置了播放备片功能,会播放备片信号,提高直播断流体验。

弹性支撑百万级别直播流的乐视云“月光宝盒”归如何炼成的(内附技术干货) 3

附:左图为正常直播信号,右图为直播信号中断时播放的备片。

随着直播 PaaS 平台的开放,海量直播流的接入,而商业直播的需求主要以秀场、发布会等间隔较短的直播为主,此时如果仍按照原有均衡分配直播流策略,每个直播都分配单独服务器,会导致服务器数量成倍增加,资源成本陡增,为解决这个问题,月光宝盒架构也升级至 V1.1。

月光宝盒 V1.1

在 V1.1 版本中,直播流均按需生产,为了确保客户所接入的流量安全,调度会同时分配给主备两台设备来生产该流,在主节点故障时自动执行主备切换,确保对用户播放无感知。

随着业务的快速增长,日活直播快速上升,平台对直播源站集群进行了扩容,但由于直播流分配策略会优先与时移数据绑定(注:该策略为确保全程回看数据在同台设备连续),因此在实际运行的过程中可能会出现比较严重的偏压问题,会导致比较明显的热点问题,需要通过集群上报流监控状态判断是否需要对备流进行迁移,以实现集群的再均衡。

弹性支撑百万级别直播流的乐视云“月光宝盒”归如何炼成的(内附技术干货) 4

v1.1 架构图

注:

虚线箭头表示发生偏压时,部分直播流发生迁移。