颜阳:企业级数据中心的演变之路及证券业大数据应用

第2届“2012中国数据中心产业发展大会”于20112年月17日在北京举行,在下午的云计算与灵活高效的IT基础设施分论坛上,中国民族证券信息技术部总经理颜阳博士做了“企业级数据中心的演变之路及证券业大数据应用”主题演讲。以下是演讲全文。

中国民族证券信息技术部总经理颜阳博士

颜阳:大家下午好。我来自于金融行业,我从用户的角度谈一谈云计算相关的工作,接下来我把我们推进云计算,特别是大数据的运用相关的工作,尤其去年我主持了证券行业共有云相关的工作给大家做一个共享。

企业级数据中心,在基础层面,很多企业都在研究云计算的工作,这里面也包括了虚拟化的过程。在具体做的时候并不难,但是难的是把它做得更完整,而且很多标准化和规范化的工作,比如我们在(英语)的推进过程中间,由于云计算和虚拟化引进以后,(英语)一些标准的修改,在企业推进云计算的过程中间,有一个工作,这几年在我们金融企业做的比较多的,首先要建立企业级数据中心,因为资源共享它可以把很多职能部门,很多业务链条通过业务的方式整合起来,可能会对业务带来一些冲击。这是我们这几年工作的总结,在推的过程中是非常艰辛的。

第一为什么要建立数据中心?它是集中化管理的必然。包括管理,包括业务,包括技术,它是一个完整的整合。

第二分离的诉求,在我们的推进过程中间,不光要有集成,而且要根据各方面的规则要进行分离,不然的话效率达不到最满意。

第三,数据的统一,使得相互之间的交换有一个依据。

第四,通过数据整合,我们可以得到相关业务的创新,很多的数据是埋藏在我们地下的资源,必须要统一挖掘,才能使我们隐含的业务的价值才能挖掘出来。

第五,决策的依据,给决策部门提供相关的依据。

第二,怎么去建企业级数据中心,首先这个数据中心一定要是高效的,怎么样打造高效的平台?一定要选用成熟的平台,现在很多的技术都走在业务的前沿,关键是我们怎么样用现有成熟的技术来为我们的业务服务。数据模型也是很重要的,很多是由应用系统演变为数据中心,它的问题是拓展性很难。以前的数据中心是由公共系统引发过来的,它毕竟是控制我们现有用户相关的数据操作,和我们现有人员的操作,我们的潜在客户一定是纳入到我们这个企业的,所以我们把银行的金融模型引入进来,建立数据中心是非常重要的。数据中心一定是分布建设的一个过程。

第三个原则,我们数据中心有哪些内容,第一,要进行数据的整理,第二用我们的数据提供服务。第三,我们可以通过数据的整合为我们的业务提供支持,为我们的决策提供依据。我们在建设的过程中,你IT部门要推进一个项目,或者建设一个庞大的数据中心也好,它要通过立项,做数据中心是相对比较抽象的,而且在短期内是不会产生效益的,就像我们在做一个高楼,最初挖地基的时候你看是不到它的外观。

你前期的立项的依据要有非常充分的理由,才能推进这项工作。所以这个3W原则是我们在这些年推进数据中心建设中间的一个完整的描述。

在企业级数据中心的建设,我们选择什么样一个平台?我们的IB是什么?我们的ETL是什么?当时08年的时候我们可选择的东西很少,现在开元的东西很多,可选择的余地很大。我们在中国,在金融行业第一个引入NPP架构这样一个数据中心,数据仓库这样一个架构,现在我们整个操作的效率,就是查询的时间每秒钟可以上亿条记录就是几秒钟之内就可以出来,而且你在进行数据切片越复杂,时间增长并不多。所以使我们走上一条跟云计算将来的架构对接这样一个非常光明的大路。

它是一个完整的解决方案,我们在推进过程中,技术平台的选择它是非常重要的。大金融的信息应用,银行还是走得比较前面的,我们是把金融数据模型用证券行业做了一个融合,这对于我们创新业务的发展,基本上不需要做什么修改了。

这面一个客户体验,我们很多的工具是针对我们技术人员的,我们要开放给我们客户的应用,一定要考虑客户的体验,我们把一些工具和开发平台联系在一起,可以用我们客户很好体验的这种工具来得到相关的应用的展示。

在企业数据中心里面还有一个比较关注的,就是安全性,第一就是我们数据数量的管理,很可能出现数据的不完整,数据的信息出现错误的情况,这样你采取什么样的机制来保证我们的数据是完整的,一致的,而且是准确的。这里面在设计的时候,都是有相关的技巧在里面。

第二,数据从各个结点之间的调度,它必须要有相应的规则。比如从数据源再到我们的核心的数据层,再到我们数据仓库,都有相关的规则来推进。

MPP架构也是我们当今在云计算中比较流行的这种MPP架构,包括新浪各大网站里面,需要进行分析运算的架构,都是采用这样一个模式。我们现在利用(英语)来做这个数据仓库的时候,就用(英语),我们就用了两个结点,像淘宝有将近280多个结点,我们两个结点基本上对于我们中性的券商企业就足够了,所以扩展性非常好。 在这种架构里面,一般的编程人员就可以进行相互的编程。它和我们传统的方式是不一样的,数据可以是分块进行执行的。

前面我介绍了企业级数据中心的状况,我们证券行业当前的生态环境是这样的,这几天是比较好一些,去年我们整个行业里面109家券商收入是大幅度缩水的,最多的将近缩水了7、80%,平均缩水了将近50%。整个行业还没有找到一个比较好的运营模式,在这个过程中发展就有竞争,产生的结果就是白热化的竞争,采取打折,死拼的方式。

从11年开始,监管部门也看到了一个比较危险的状态,我们在11年头出了投顾业务,它改变了行业的状况,业务有两个理念,第一,必须进行产品全深度分析的管理,证券行业是没有产品的,由于产品的引入是可以政变证券行业盈利的模式。我把产品的生命周期包含了这样几个部分,从需求一直到服务跟踪,这个需要业务管理和技术相关的支持。

另外一个就是客户的全生命周期管理,包括客户退出,在我们的营销过程中间它是非常重要的一个生命周期的一个结点,一个客户他如果说不在我这里交易了,他有很多原因,现在我们在网上购物中间有一个大家比较流行的词叫口碑,如果一个远离我们的客户,退出我们的服务体系的客户,他给我们一个很好的口碑,带给我们潜在的客户,对我们后来是很有好处的。证券行业也在研究怎么样对客户进行全生命周期的管理,尤其是我们看到在整个行业里面有这样一个机遇和挑战,第一,就是我们的行业将进行产业化升级,由于对客户进行全生命周期管理,对产品进行全生命周期,就像产业的生产线一样,只要我们原材料不一样,后面出来的产品是不一样,但是中间的过程是标准化的,由于有了标准化,才能实现产业的规模化,这是我们从工业化这样一个角度把它应用在金融行业这样引出来的。

第二个就是敏捷化服务,很多时候IT人员,我们就说业务人员提的需求不全,业务人员说IT人员的反应很慢,这里面双方都有道理,但是在实际工作的推进过程中,最终总有一方为主。

第三运维的新理念,这也是从敏捷化服务引出来的,我们IT部门总是一个反应型的,业务部门提出需求,IT部门去做,这是传统的IT企业的一个做法。在当今这个时代,特别是像我们网络运营商一样,他要提到运营的概念,它是属于IT部门是主动推进的,这个不是一种被动反应的一种方式。第三点运维的新概念就是这样来的。

第四,企业级数据中心一定要升级为社会化的数据中心,就是因为企业级的数据中心,大部分的数据是来源于我们的业务系统,实际上它是一个相对封闭的,由于互联网的发展,它很多外部的数据对我们服务的评价,对我们管理的评价,它的依据更多,它给全面。这样就势必将我们现有的企业级的数据中心要升级为社会化的数据中心。

第五,就是大数据的BI。一会儿我们再讲。

金融工业化的产业升级就需要我们有一个标准化,而且要产业化。敏捷服务是与IT治理有关系的。我们涉及到的企业级数据中心,它包括了企业的数据仓库,这来自于我们内部系统,将来一定要打开。

通过我们大数据的商业智能,就把我们前面的客户的全生命周期的管理和我们的产品把它对接起来。我们最近几年推进金融行业的云计算的时候,很敏感的话题就是数据,数据凭什么要放在云上面,我们客户的数据都是比较隐私的,有的时候我们在推进云计算的过程中间,有的时候是过于把安全太强调了。

我举一个例子,当我们以前没有钱庄的时候,大部分人是把钱放在一个罐子里面埋在地下,当钱庄出来的时候,大家觉得把自己的钱放在那里确实不安全,但是往往是一个专业化服务的团队给你提供这样一个数据服务,从某种意义上来讲,它可能比你放在家里面更安全,这就是为什么大家的钱很少有人放在家里面的,都放在银行。

实际上云计算也是这样的,在某些层面上是过于对安全敏感了,在企业推行云计算的过程中间,一定是一个长期规划的过程,这里面包括业务管理和技术几个方面,这个图是我们在去年提出来的,特别是我们在证券行业里面涉及到一个云的生态图,它有三种形式,第一个是企业的私有云,企业私有云并不一定非得放在企业内部里面,我放在外部,由第三方负责管理,它也是一种企业私有云的一种表现。我们在一些大型的证券公司将来会用得比较多。

这个是联盟私有云,有几个组织,大家为了一个共同的业务发展目标聚集起来,这样一个私有云,为这样一些组织服务的,将来这种形式可以为一些中小金融企业来进行服务。

这个就是行业云,它将来可能会比较敏捷,可能涉及到行业云的数据,包括公有的数据,但是对公有数据的挖掘和分析方式不一样,将来能够提供这些服务的一些运营商,就可以在行业云这方面提供相关的服务。这就是我们在证券行业里面企业云的生态。

在企业云的中间有一个安全控制的机制,简单讲就是内防、外堵、审计,它对于我们企业云的一些风险问题我就不讲了。

在证券行业里面我们设计了一个云存储的架构,由于有了这样一个技术的推进,我们就把以前IT部门的救火队方式转化为互动的形式,从标准化,规模化的方式,用计算机自动处理的形式,我们就把工作集中在创新的结点上。

下面我讲一下大数据的应用,大数据的特性,一般提到大数据,大家更关心是CE,提到大数据就是非结构化,实际上大数据关心它的速度还有它的复杂性。通过我们建立月前分析这样一个系统,就把我们的客户系统,服务体系把它整合起来,比如说我们在制定一个产品的过程中间,我可以把它发布到我们新媒体上面去,看客户的反应,这里面它的来源不光是在我们证券公司做交易的客户,不在我们证券公司做交易的客户,他也可以提出他赞成的,或反对的一些意见和建议,这样它就更加全面了。对于月前分析几个流程是这样几个部分,第一一定要确定主题,对于月前分析这样一个现在的应用方式,它不可能做一个很宽放的一个朴实性的系统,因为中文的语义分析是非常难的,因为中文和英文完全不一样,英文每个单词之间有分割的,中文除了一句话,每个字和词之间没有分割,如果说你在截取它的时候,它的位置不一样产生的含义是不一样的,非常难。所以说一定要选取最好的主题。

比如前期公布了一条消息,制药方面出了一些问题,这个消息是负面消息,这个对股市是一个打压的过程。在对抓取信息进行一些过滤,在我们的新媒体上有些广告信息,它必须要做过滤的。要对信息抓取以后要做一些预处理,这个工作做得越好,对我们后面分析的效率越高。

建立相关的模型预分析,大家看到美国的一个片,就是专门讲(英语)成长的一个,就是对于大学生照片贴上去然后做一些评价,实际上我们中国有个特色,市场化程度不是很高,人们受舆论的影响很大,如果有某一个股票对我们大盘的走势相关的意见是非常的火热,而且是达到一定的相关性,它一定是对我们的股市是有影响的。这样的模型你可以用一些很好的,很简单的统计都可以算得出来。

通过这种方式最终我们给它发布出来,这样就会形成我们内部做一些决策的依据,外部可以形成一些数据的产品,这也是我们在数据中心的建设过程中间做的一个应用,而且这种应用将来可以逐步的把它延伸,跟我们的交易系统关联起来。

大家如果炒股就知道,有的时候我们看着性情有个股票有一个异动,可能就要打电话问怎么回事,这个时候我们在网站上已经是可以把信息采集出来,比如说汶川大地震出来了,我们在分析系统里面马上就可以看到,只要你有个提前量,至少有负面效果的时候我可以先出手,卖个比较好的价格。但是不一定是非常好的一种方式,用这种方式的推进,一定是一个系统的工程。

在大数据的应用过程中间,我觉得有几个关键点,智能分词库,它一定是一个积累的过程,它一定要有学习的功能,我们在推进的时候,发现它和我们实现出现是相悖的,你一定要对它修改,这样才能使它更准确。

第二个就是存储,大数据不能每一个数据都做存储,因为你没有这么大的存储的空间,而且你一定要跟应用走,比如说我们在做应用的时候,我们不一定把所有抓取的数据都保存下来。

第三,对于结构化与非结构化处理,把它转化成结构化的数据,利用以前结构化处理的系统就可以实现,短期之内我们就可以用我们的企业级的数据中心做一个渐变。

从产品到服务的跟踪,我们通过分析可以形成我们的数据产品提供给我们的客户,可以给客户提供相关的依据,可以帮助他做一些投资建议。

综合起来,我们在云计算推进的过程中,它是一个渐进的过程,使得企业要把自身的信息化要进行相关的规范和一些标准化的梳理,找出适合于我们自身实际应用的一个架构,逐渐与我们当今现在的流行的技术和推进的方式结合起来,才能达到事半功倍的效果。这是我和大家分享的内容,谢谢大家。