移动段云峰:中国移动大数据系统架构研究与实践

中国IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。

其中,在4月28日上午“大数据与电信业转型”分论坛上,中国移动大数据系统总架构设计师段云峰发表了主题为《中国移动大数据系统架构研究与实践》的精彩演讲。

电信业-段云峰(猜的)

中国移动大数据系统总架构设计师段云峰

以下为段云峰演讲实录:

段云峰:很高兴有机会跟大家在这儿做一个大数据方面的交流,我的题目是大数据系统的架构研究和实践,更多是从技术角度做切入,我演讲内容是三块,一个是中国移动的演进和研究,另外是大数据做的案例和几个关键点。

这是整个电信行业大致的数据的情况,我们在做大数据的过程中,中国移动的角度,2001年就开始规划了数据仓库,在做数据仓库的过程中,主要汇集的数据是结构化数据,为什么现在冒出一个大数据,我个人理解是非结构化数据和半结构化数据出来。2010年开始中国移动做了一些云计算方面新技术的研究部署,给大家做一个介绍,中间还有一个MPP,分布式数据库,主要是想降低成本,因为MPP最大的好处是X86化,最大的优点是SQ9200支持的。原来数据仓库的问题是成本比较高,在Hadoop的架构上,我们现在基本上把有关的技术,Hadoop上组群技术都做了尝试。大数据时代的技术一个是时时技术,Hadoop技术和MPP技术,我个人觉得MPP的技术将来的发展还会面临一个角度,看它和数据仓库谁能够站住脚,这是整个大数据我们的基本架构。

中国移动在大数据方面是一个承载者,因为我们电信,大家一提大数据都想到互联网,但是所有互联网数据都跑在电信的网络上,电信网络的数据的特点,第一是全承载,第二是各个维度的,这是我们感受到的电信和互联网相比的一些特点,这是我们的一个架构,这个架构是中国移动的变化,2001年的时候做数据仓库,当年的目标就是内部服务没有对外服务的定位,最早定位是做决策支持,但是我们做了两年的时候发现不对劲,光做决策支持无法满足公司各方面业务的发展需要,后来提出全员经营分析,希望把我们的应用让所有的移动员工都能够使用上,这是我们当年的情况。从去年开始,我们整个中国移动进行了大数据的建设,这个建设的过程首先是拿到很多数据,进行有关的分发,现在数据环境里包括传统数据仓库MPPHadoop和时时的计算的环境,左边是数据治理,数据治理,2005年就开始做,做的比较早,这是我们的一些惨痛的教训,大数据做了两年左右,数据质量爆发期有些问题会出现,口径问题,数据的一致性问题等等都会暴露出来,这些有的是技术问题有的是管理问题。现在互联网行业这方面还怎么开始介入。大的互联网企业这些问题开始爆发,这是要解决的问题。

在上面怎么做服务和分享,包括我们做一些应用的展现,我们这次大数据的架构里可能有一些新的点,还在理念上,我们引入互联网的思维和角度怎么做这个后面的演化,包括用户是谁,大数据产品应该长什么样,很多问题需要大家考虑,我说的用户包括内部客户和外部客户,大家关注的更多是外部客户,从我们实践15年的情况看,作为一个企业尤其是国企第一件事要解决的是对内服务,把数据保障准确,让所有人都能看到数据的价值,这是我们面临的情况,这个结果特别复杂,这是混搭的状态。

这是中国移动的情况,数据资产,省略号是意味着整个数据极其繁杂,中国移动做了有意的尝试把所有的系统做了整合和管理,数据大量的梳理工作都是体力活,但是我们不得不干,因为真正做大数据这些东西都要先梳理。我个人认为很多事情是绕不过的数据整理建模都要做,我们看到互联网在建模方面刚刚开始。这是大数据应用的架构,这个能看出中国移动大数据做的一些工作,在全网有60个标准的应用,在省里有上千个个性化应用,现在业界看到的应用和模型中国移动都做了。包括当年做数据仓库,相关的工具中国移动基本都用了,SaaS、PaaS,当年数据挖掘类的工具都做过尝试,这些经验可能是对业界很难得的经验,中国移动是第一个吃螃蟹的,这个模型里做了很多数据挖掘的应用,有一种展现形式就是标签,对外再做服务,对外做服务的过程中中国移动积累了大量的经验,五年前我们提出怎么做大数据产品概念,怎么和APP结合,等等这些相关的内容。中国移动最大的特点,电信运营商最大的好处是所有大数据的汇集点,我见到政府的官员说的很实在,他说现在虽然提大数据,真正有大数据的也不多,互联网也就是BAT,再就是电信,这是运营商的一个优势,手里有大量数据,这些数据将来对社会各个方面都能产生积极的影响。这是IaaS,大数据4S店,DaaS是数据对外开放,PaaS是有关架构,中国移动设备很庞杂,全网加起来一百多个Pb,有大量的计算资源,包括现在的Hadoop和原来的数据仓库的体系,数据集市里更多有这些工具,他这些分析的工具在原来是比较成熟的,现在在PaaS里需要自己重新建,中国移动的这些能力都是将来的一个核心竞争力,大家都有数据,我们电信运营商这是我们的强项。计算能力是我们的竞争优势,因为我们比较成体系,不光是数据存储处理和分析,都是有成体系的工具。