肖康:360安全大数据平台

中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日大数据技术与产品创新分论坛中360系统部总监肖康向与会人员介绍了360安全大数据平台。

500-333文章照片-大数据技术与产品创新-肖康

 360系统部总监肖康

以下是肖康演讲实录: 

  肖康:我是做技术出身的,现在一直做技术,未来可能会做大数据及其产品。我今天的演讲主要是两个部分的内容,第一部分分享一下在360内部我们是怎么做大数据的,360内部大数据的情况是什么样子。第二部分是我们在360内部做大数据平台应用之后,我们想能不能把我们在互联网公司做大数据的能力输出到政府和企业里面去,能给我们的客户带来价值。我们讲一讲怎么把大数据的能力包容成一些产品,将来提供给我们的政府和企业的客户。

首先我们看一下360公司内部大数据的规模和能力,也是秀一下肌肉。整个在360公司现在有差不多4万台服务器用来做大数据,总共存储的数据量有1.6EB数据,每天新增超过1PB,每天有几十万个任务对这些数据进行处理,每天处理的数据也有几十个PB。我们这样一个大数据平台里面,我们可以在几分钟之内调度几十万个CPU进行计算,能够对于TB的数据进行秒级的快速处理。

360大数据的技术演进过程其实很简单,在很早期的时候没有用大数据的时候,也是用Oracle去做数据的分析,后来发现越来越慢,成本越来越高,扛不住了,就采用开放的技术路线。所谓开放就是硬件采用通用的X86的服务器,软件就是采用基于开源去定制优化,形成一套完整的大数据平台。这一套方案的特点相对于以前我们用IOE的方式,第一个是成本比较低,我们可以定制和灵活性比较好,我们可以去控制。第二是扩展性比较好,可以看到我们之前的几台机器,现在是几万服务器,这个扩展现在看来在软件层面没有太大的问题。

接下来我介绍一下这么多服务器究竟做什么事情和360几个典型的大数据的应用。首先是数据驱动安全,我们360是一家安全公司,360做安全和其他公司不一样,其他公司做安全早期做病毒查杀,很多是根据特征,传统的一些安全技术。360做安全是数字驱动安全的技术,通过数据来找出安全的问题,通过数据分析解决安全的问题,通过数据驱动安全背后就是大数据的力量。比如说我们的一些成果,我们的杀毒引擎全球的冠军QVM,还有我们新一代的威胁感知系统天眼,还有在我们360大数据平台里面存储了非常多的各种程序的样本,还有各种网址的黑白名单库,这个都是我们做大数据安全的一个基础和基石,其实这个也是360做安全和其他公司做安全很不一样的地方。

360的搜索,相信大家都知道,这个搜索基本上在整个中国占将近30%的市场份额,这个也是非常不错的,是第一个除了百度之外能够占据这么多市场份额的搜索厂商。其实大数据的快速发展时期就是前面两个,一个是数据驱动安全,第二个就是搜索驱动了我们大数据平台快速的发展,我也是在那个时候加入360。我们在搜索这个方面,比如说我们建立了一个千亿级的网页库。首先是这样一个庞大的网页库,把所有的中文网页都能抓下来存储起来快速访问,存起来之后还能够做分析,对它进行快速的索引,还要对实时的东西进行热点的跟踪。360云盘,相信在座的很多同仁都可能会用到360云盘去存储你的资料,去存储你的照片和你的视频等等,这个其实背后也正是我们团队在做的工作,就是我们通过大数据平台提供在线的海量存储的访问,差不多有上万台服务器提供几百PB的免费输出空间,不间断随时的访问,这是海量云存储、大数据存储的应用。数据分析和统计,这个其实在很公司,不管是互联网公司还是传统公司都是特别需要的,早期可能我们通过数据库这样的方式,后面越来越玩不转,就通过大数据的方式来做,每天有大量的产品运营的数据都会通过我们大数据平台进行分析和统计,比如手机助手、游戏、搜索等等,这样的产品都需要进行大量海量数据的分析。