何鸿凌:中国移动在大数据的应用和平台的实践

 2014中关村大数据日于2014年12月11日在中关村举办,大会以大会以“聚合数据资产,推动产业创新”为主题,探讨数据资产管理和变现、大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题。大会还承载从政亚信府主管部门到各行各业的需求和实践中的疑问,探讨包括政府、金融、运营商等部门是如何通过数据资产管理和运营,实现转型发展和产业创新的路径。

在下午的论坛上,中国移动业务主管何鸿凌作主题演讲, 分享中国移动在大数据的应用和平台的实践。何鸿凌是中国移动业务事业部,主持了中国移动规范架构和基础研究工作。

以下是何鸿凌演讲全文:

何鸿凌:大家好,我感谢主持人,每次杨总一介绍以后都觉得自己好象高大上了很多,其实我在中国移动负责架构规划和基础研究工作,今天非常容幸来到这样一个开放日和大家分享和报告一下我们中国移动在大数据的应用和平台的实践,希望和大家做一个分享和讨论。

刚刚看了范总的介绍,我们三大运营商都类似,而且这种思路也是不约而同,都做了开放平台的方式。我再介绍一下更全面一些。

首先是应用层面,因为中国移动的用户主要是移动手机这一方面,我们来看整个的手机上面的流量增长是非常的快,这个快体现在它是一种非线性的增长,可能跟我们平常感知有差异,它是不一样的布局。我们看语音层面占的量特别少,而数据移动设备手机产生的数据量增长的非常快,我们现在感觉到移动互联网已经渗透到我们生活过程中的各个环节。这一方面在为我们丰富了生活,降低了我们沟通和交流的成本,提供了很多的分享。另一方面也是在运营商的后端沉淀了很多数据资产。我们来看看典型的从左到右看看我们把它纳入数据资产的数据,第一方面是业务生产方面,就是业务产生的数据,这些数据是最早纳入数据分析系统,主要是包括用户资料,帐单,话单等等信息,这个信息构成了我们传统的数据信息的主要环节,在这个层面我们做了信息化管理,精确推荐,精确营销方式。

后面我们通过网络的位置新令,网络方面新令,通话新令,这些数据其实它跟用户数据比较接近,能够深刻地洞察用户,了解用户,所以它构成了我们现在最有价值的数据,我们现在很多对内和对外的数据变现都是围绕这个展开的。另外一个不容忽视的是讲运营商的三条曲线,语音流量和增值业务是移动互联网的产品,三大运营商方面都做了很多工作,后面我会具体讲到一点。在这一类产品给互联网产品提供的同时也丰富了很多数据,因为它跟用户更接近,所以最接近用户原本行为,所以它的价值更大。我们传统运营商平台来说这个数据规模都不够大,但是这个是很好的补充,帮我们更完善的层面。

对大数据来说是至关重要的环节,我们看到现在随着摩尔定律不断发展,随着封闭围墙不断被打开,现在从原来稀缺经济学到现在疯长经济学的转变,这个转变很厉害。古人说从增入减是比较难的,但是实际上来说我们从比较稀缺时代到富饶时代很多东西都面临着颠覆。现在很多东西都变得免费,运营商也不除外。我们运营商都存在被颠覆的可能,但是从古到今时间没有变化,我们一天只有24个小时,保持清醒的时间就是十几个小时,如何充分利用搜集用户的时间,这是价值最大的基础。大数据对于运营商而言存在对外和对内两个层面,对内是我们一直想实现的数据来实现利润增长增效的操作,这个是大数据变现主要的数据所在。我们通过这个数据能够安排每年有上千亿的网络投资,每年有数百亿的营销成本怎么样定量投放,同时它也产生很多的价值,这是主要的阵地和主要的关注点。但是非常不容忽视的是对外这一块,因为大数据大家都知道有一个非常重要的特性就是外部性,刚刚说的数据都不是为了外部应用出发,都是为了提供更好的管理,提供更好的网络接续,但是数据存下来以后为很多的其他商业模式提供的更好。这是数据外部化应用,数据外部化应用是一个增长阶段,它不只是移动互联网移动通讯的行业,而是对所有的企业都可以用到。我讲几个对内的案例,第一个肯定是监控企业过去发生了什么事情,更重要的是监控企业现在正在发生的什么事情,这是大家都会有的,但是我们通过大数据的发展,变得更加实时变得更加精细、精准。

第二个我们必须得知道我们的客户在哪里,客户特征是什么。所以客户的识别非常重要。我这里举了一个例子,第一个例子是对于校园客户的识别,我们怎么识别校园客户?我们以前可能最早通过布置及出现在位置区域里面的客户,后来我们加上了时间、用户的时空特征,这样把一部分老师和校工排除,或者是在校园其他的人排除校园之外。除此之外不够,联通用户和电信用户不在我们的区域内。还有逃课和上课层面他在宿舍,或者是他经常跑出去玩的用户,这个也不够精确。我们通过全网连接的情况。这几年我们发现很多学生在使用互联网场景方面有很大的差别,我们可以看到这个识别准确率是非常高的。

我们中国移动在过往宽带是后来者,这些用户他办理宽带,他的节假日和晚上及白天有很大的差别,我们把宽带用户识别出来。同样基于识别特征和用户各种各样的特征,还能识别出哪些是快递员,因为快递员跟其他用户有很大的差别,识别出来快递员之后就能识别哪些用户曾经做过网购。

第二个刚刚讲的都是长期的用户积累,实际上在大数据越来越蓬勃发展的情况下,我们还更多的关注他的短期变化,因为短期的关注行为,特别是关注变化,意味着短期行为模式的变化。这可能是非常重要的时机,再进而一步,根据这个特点形成他当前的情况,这个是很好的。比如说有人在电影院不方便接电话,在上下班,正在开车或者是说正在会议的情况,实际上通过我们刚才讲的数据支撑去洞察这些数事情,以前我们从基础上没有发展这个层面,但是实际上现在我们可以做到以分钟为单位去识别用户特性,刚刚一分钟挂断电话,那我不能就不会打电话给他,这就提高了我们企业的工作效率。

我们把长期和实时洞察结合在一起,这就做成了BMP,一个非常完善的数据洞察平台,通过这个平台我们可以做更多后续的应用。最主要的应用就是做营销,比如说2G3G4G不同的套餐,不同的业务,我要做很多业务,这些事情就需要通过精确的方式。刚刚只是讲了我们针对客户的洞察,做好营销还需要做好客户和产品的匹配,也就是我实际上要形成个性化的推荐引擎。这里举一个终端的例子,我们怎么识别终端的换机,怎么识别用户的换机偏好。在换机的过程中也有很多做交叉销售的,比如说用户换4G的手机,我可能要给他推荐4G的套餐,以前下载不能用的应用也可以使用4G端。所以需要做很多的个性化推荐,包括后续我们还要联合做一些网络的优化或者在做的一些销售的工作。通过这样我们每年,应该是去年1.5亿部终端,今年需要设出2亿部终端,这是一个非常大的量。

第二个数据商三条体现,比如说飞信,这是一个互联网业务,现在它的月登陆数1.8个亿,还是很大量的用户,这里面提供了非常多的营销资源可以用。还有现在手机阅读,UV量0.3亿,PV量195亿,手机动漫和手机视频也有相当的一些UV量,这个就要求我们一个是提供很多推荐位,跟客户做接触的信息。第二个是基于用户和用户的推荐,还有内容和内容的推荐。但是我们有大量的用户数据,我们做用户和用户的推荐数据更容易,运营商还有交往圈,有社交网络在里面,这样我可以知道你的朋友喜欢什么。客服人员接触,我们现在希望把客服人员接触都充分利用起来。为什么这样去做?因为现在主动接触用户随着政策规范这块已经非常稀缺了,但是我们被动的接触用户手段,我们希望每次接触用户都是更精准的,这样提高效率。我们现在通过跟各省手段建立服务方式,以一个月大概能创造出百万级别的推荐的机会,通过发短信上亿级别的,如果通过APP就是百亿级别的机会。这就是刚刚范总说的我们在省级,因为我们投资了科大讯飞的语音识别,我们通过语音分析,把客户投诉,录音质检通过录音,这样我们非常快速的通过热点去搜集用户的洞察。

第三点利用网络规划,比如说我们网络大数据时,优先在哪些地方建,优先调整在哪些,这个都可以利用大数据规划出来。还有同时我们整个终端,以及整个交换机,各种类型的交换机它的联合情况也是需要非常实时的洞察。这是一个网络的根本。

接下来是网络大数据的对外服务,我现在是把大数据用的个人客户和群体客户发挥得价值在四个象限,第一个象限就是第二个象限,也就是利用社会资源和群体价值。第三个体客户,第四个群体客户没有发展。我们现在做了社会指数,基于群体客户我们针对一些社会的洞察,比如说31个省之间的通话联络程度,左边这个图,右边上和下是非常典型的特征,它跟国外的图的区别。我可以简单说一下,左边的区域通话比较多,当然我们不是专家,稍候和大家做一些专门的社会家和科学家合作,可能我们有些不起眼的数据在他们那里发生非常大的价值。举个例子天津打电话最多的是日本,但是接电话从国外最多的是美国,吉林通话程度非常高,接电话57%是来自韩国,打电话60%来自于韩国。这样可能解读于当地的经济情况,当然这个需要更专业的人来做。

第二个就是社会科学研究,我结合我自己的专业,我想如果有人能够在我们这个平台上做分析,就能够更加的有效果更加的丰满。这是我们自己的内部员工形成了影响力的模型,包括影响力的方向和一个值,这个基本上通过数据方式和我们实现的值基本上是一一连接的,同时我们三度以内是什么情况,六度以内是什么情况,在什么阶层实现传播,这是非常有意思的点。

然后有旅游特征,我们基于位置识别以省为单位的创新,做了一个叫做智慧旅游的一个平台,它可以提供一些旅游的行业标准化产品,也可以结合大数据的分析报告,通过合作伙伴提供分析报告,也可以通过开放API的方式为合作伙伴和政府提供API权限。这个是整体客户的数据,也就是说它IP是主对象,而不是子用户,而且它也是符合KN的法则的。

这是截图,这是北京的旅游数据指数,右边是江苏的信息化产品。这是去年51节后的模型,通过识别特征,以及用户的行为,包括用户访问APP的行为,我们可以知道用户的出行,以及出行方式,以及商业目的,以及出行选择的途径是什么,同时可以联合做一些会员的数据增强,以及外汇的增强,这是在航空公司做的事情。在交通信息化领域也是一样,交通信息化领域在城际之间很少布探头,这个成本很高,一个探头成本就要一万块钱,但是通过群体探空,他通过手机就可以实现。还有在城际的使用情况,虽然不如LBS地图那么准,但是通过群体行为来说,我们可以分析群体行为分析,通过这个分析能够更好地为城市的发展,公交的规划提供一些参考依据。这是交通信息化发展领域。同样在零售领域,西班牙代理商,同时我们也正在尝试做同样的事情,另外我们自己对营销类对一些地方,跟万达的合作做联合营销。另外在金融领域提供金融联合验证,通过他把信息放到金融网站上,这种金融网站我通过输入验证码,通过主要的联系人,以及消费情况通过我们的消费形式来进行验证。这个是我们在尝试的刚刚我们讲的精确营销。精确营销除了刚刚深刻的客户洞察,还有个性化推荐引擎之外,还有通过渠道去推,这个非常重要的,这是我们大数据之外运用一个非常重要的资源推广渠道。

包括下面的两个,一个是DNS导航,你找不到页面的时候回到导航页面,还有页面的认证页。

刚刚我们讲的都是应用情况,我们公司应用人员还有省公司的人员自己尝试做的应用,外部应用是根据具体的外部平台合作,对于我自己就是能够在这个平台上低成本快速的长出来,这是我们中国移动的大数据平台。我们中国移动的大数据平台和联通有差别,我们天然的是两级的大数据平台,省级的就是省级的负责对外的大数据探索。在集团汇聚了全网的数据,我们每天8TB事物系统数据,400TB日志数据,我们有专业公司,有总部,还有各省的数据交换和数据增强,把数据下发的哪些工作我们通过服务数据,还有深化和大数据探索对外的应用,包括数据价值,数据交换和行业应用,未来的这个架构可能会进行调整。因为实际上省的平台和集团平台形成一定的竞争,这种竞争是比较良性的,这样大家互相参考,互相借鉴,互为实验的目的。为什么这样去做呢?大家可能有一点我们做技术的人可能会深刻地感受到,现在的基础设施已经非常的廉价,而且它还会沿着这条曲线一直廉价下去,当它变得成本没有那么高的时候我可能去愿意做一些尝试,因为我希望大数据能够充分发挥出来,并且没有阻碍的发挥出来。

后续就是通过两级大数据平台做成本效益。技术上类似,大家几大运营商都是比较类似的,传统企业都是类似的,我们相对于互联网我们存储了大量的结构化数据,结构化数据需要探测和探查,我们都会有一个BMP的数据,也有HADOOP,我们也有混搭系统,跟范总讲的一致,我们同样通过EQR来统一管理,统一服务,形成一个总体的数据开放平台。对于平台来说,我怎样通过这个平台去充分发挥大数据的价值,大数据的应用是长尾的特征,长尾大的头固然重要,但是绝对不能忽视长尾的尾,我们怎样通过大数据平台结合起来很大,但是实际上一个点很小,来把它都发挥出来。这是非常重要的问题。传统的时代我服务于我的内部系统,我非常专业,我非常知道市场的状况。但是对内的网络规划网络的优化,还有我要服务内部的一些审计,还有服务财务的信息化管理,我们是缺乏这些方面的专业知识。另外特别是服务于外部,我们新的专业记录者,缺乏外部的资源和行业的资源,无论是外部价值还是经济价值都会面临这个问题。

我们的且方法跟刚刚范总讲的一致,就是搭建一个开放平台,把平台一大堆快速的灵活小的应用,快速的去试错,快速的尝试,作为他来说就是要对你了解你所应用的这个领域,你有这个背景,而且要逐步快,就是因为快,失败也很快。第二个就是要做很好的管理,你要知道谁用了这个资源。对数据采集,加工,以及展现存储这些东西,像水和电一样的云计算资源去提供。

同样我们有一个大数据平台的参考架构,在参考架构我们形成了一个DATA 的PAAS平台,还有存储生活表,还有文件,还有采集能力都做了都逐步化,并且两者管控,通过自己的服务方式可以来申请,无论是对外还是对内都是这样申请,我们可以建设一个SDORE这样一个概念来交换。同时作为数据交换,我们在这个平台里面也有数据交换的基础设施,整个里面都是做平台,做好计量,做好配合,大家可以知道亚马逊平台主要针对业务运营系统而言,我们大数据系统主要是针对特别的系统,当然理念是一样的。

最后我有一点思考,大数据里面我们有一点来说,为什么我们在个人客户尝试的不多?因为我们现在觉得没有解决一个问题。就是说我在做大数据这种应用这种价值变现的时候我怎么实现跟用户共赢?因为现在很多的大数据应用模式都是可能忽略了用户,只是从广告主和媒体方的角度去讲,这样其实背离了现在互联网时代用户占据消费链的主导地位,用户的主权,更加彰显了这种逻辑,我认为这种逻辑是零选择的情况,当然这个我们要多方共赢。这是我们要解决的,目前这种解决方式很困难,但是我们现在正在演进。我们有两种方式,一种方式是个性化推荐引擎,但是个体客户是完全归属客户本身所有,而且也是他可以选择托管在数据平台和他背后的应用设备里面。这样把整个数据使用的权利交到用户的手上,通过这样的方式根本去倒转这样一个数据龙头,让用户享有更多的权利,这样我们做的任何操作我们可以实现跟用户的共赢,这是我们在大数据应用的想法。

我觉得大数据时代,特别是数字经济时代,有很重要的一点是我们需要多分享,而且我们通过分享不会损失掉什么东西,比如说我们今天交流了以后,你不会损失什么,我也不会损失什么,但是我们社会价值都增加了,这是我们今天来到这个论坛上做交流的目的。

下一步对于大数据而言最重要的就是开放的合作,大数据最重要的合作就是外部化应用,中国移动是后来者,很缺乏行业的支持,我们在金融行业,征信行业,在零售行业,既没有行业的知识,也缺乏行业的经验,所以我们渴望和希望有应用合作伙伴和我们一起去探索怎么通过数据让社会变得更加美好,让各行业和企业商业模型变得更加有效率。所以我希望能够有更多的合作,通过联系的方式,我们实现与用户数据需求方,数据生产者,数据提供者形成共赢的环境。我讲的就是这些,谢谢大家!