冯世聪:明略大数据平台核心技术分享

中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日下午的大数据技术与产品创新分论坛中北京明略软件公司的CTO冯世聪分享了明略大数据平台核心技术。

500-333文章照片-大数据技术与产品创新-冯是聪

北京明略软件公司的CTO冯世聪

以下是冯世聪演讲实录:

冯世聪:首先感谢数据中心联盟给我们提供这个机会,让我们分享我们的大数据平台。其实上午我们在数据中心联盟这边通过了评测,跟他们一起签了一个数据的声明,所以我们跟数据中心联盟合作还是非常密切的。

我说的可能比较偏技术这一块,我们公司可能有些人了解,可能有些人不是特别了解,我们公司是定位在做关系挖掘的一个大数据解决方案提供商,其中有两个关键词,一个就是关系挖掘,大家知道,在任何自然界里面,都是由点和边组成的,在座的每一个人都是一个点,人与人之间的关系就是一个边,在任何领域都有关系挖掘的领域。另外我们做解决方案,我们跟很多厂商在一起,不光是提供产品,我们是在一起针对一个特定的业务问题把这个问题解决掉,在这个解决问题的过程中需要一个解决方案,这个解决方案当中可能需要一个产品,需要我们的科学家,需要我们的服务,所以我们跟很多厂商最大的区别是我们做解决方案。

这是我们公司一个简单的历史,我们公司大概是2006年,最早的时候我们成立一个公司,是做互联网广告的监测,在这个垂直领域我们做的是亚太地区第一的。在2010年的时候,我们把我们的一些系统做成大数据平台,在2014年的时候我们把公司大数据事业部独立出来成立明略公司。这个原因就是我们在做这个过程当中注意到了大量的数据问题干我们是什么都不干,一天接触到的就是5TB,除了BAT的大互联网公司,包括刚才的360公司以外,很多公司很难见到每天5TB的数据量。这么多的数据量,逼迫着我们做一个庞大的集群,我们大概有500台集群,这就要求我们自己有很强的运维能力,有很强的系统管理能力。

2006年的时候我们有了大数据的经验了,我们公司的产品很多,一共有四款。第一款是大数据平台,我们叫做MBP。我们还有数据挖掘产品,我们单独有一款产品是针对于公安。还有就是常见的所有的关联规则这种大数据,针对于选择数据超过1TB、10TB的大数据挖掘。还有我们的展示平台,相当于我们的BI工具。很多客户找到我们,我们根据客户的业务特点,给他定制化的提供一个解决方案。这个解决方案可能会用到我们四款产品,我们这里跟很多厂商最大的区别是,我们是解决业务问题,而不仅仅是把产品部署给你,你自己去玩。

我的分享会偏技术一点,因为时间的关系,我可能会简单介绍一下我们大概的五个特性,我们这个产品有很多特性,我只介绍这五个。首先是公司概述,跟我们所有做大数据平台的是一样的,都有自己的产品架构。我们的架构大概是四层,浅蓝色的是开源社区的,基本上没有什么特点,都是从开源社区下来的。深颜色的是我们自己开发的,在自己开发的过程当中可以看到我们有几个特点,我们这里有一个安全运维,我想360的同事是非常有体会的,如果你机器搭几万台或者是几百台的时候,如果没有一个很强的运维平台的时候是一个灾难,廉价的机器硬件坏掉是一个常态,硬盘、CPU随时可以坏掉,如果没有一个很强的运维平台,这个集群几乎上是没有办法运营的。我们做到了安全性,360的同仁刚才也介绍了,我们这几年服务的客户基本上都是中大型客户,每一个大型的客户数据安全是非常重要的,我后面会详细介绍。我们做了全员控制,还有数据运维,这里面有各种各样的特点,因为时间的关系我就不一一介绍了。