新华三集团研发架构研究部系统架构师孙晓军:大数据安全防护

9月1日,由工业和信息化部指导,中国信息通信研究院、中国通信标准化协会主办,数据中心联盟承办的“2016可信云大会”在京隆重召开。在9月2日下午的大数据分论坛上,新华三集团研发架构研究部系统架构师孙晓军发表了题为《大数据安全防护》的演讲。

sunxiaojun

新华三集团研发架构研究部系统架构师 孙晓军

以下是演讲实录:

大数据安全有两个方面的层面,第一,数据安全。第二是大数据安全。数据从产品到生出来到最后的消亡有三种状态,一个是在我们的存储设备系待着。第二种状态是在路上传输的状态。第三种是被使用。

大数据的安全防护,我认为前两种状态,就是在存储里息着还是在路上,它的保护的方式也比较传统。今天我主要想从大数据使用的角度来分析数据安全的新的特点。大数据时代,由于低敏感度数据的整合,造成了一些现象,比如说在很早很早之前,这种方式就有了,在报纸上,说某将军参加了某某活动,他从哪来的,或者是哪个上校的女儿跟谁结婚了。这些东西在报纸上就登了,这些敏感度是很低的。但是在30年代,英国的反战人士从德国的报纸上整理以后,分析以后,得出了希特勒上台以后整军备战的信息,他只用这样的几把剪刀就能把机密拿来,这是大数据年代在信息保密方面的问题。

另外一个是数据敏感度的增加,对我们隐私的侵犯。隐私这个词各有个的见解,我认为可以分成两部分,一个是PII个人信息识别,这些信息能用于识别个人的。第二个就是个人的属性,这两个加在一起才是隐私。比如说咱们现在总是看到代表的罪犯在飞机上压下来以后到大陆来,他是戴手铐的,这个时候一个人的脸能被识别,而且他犯了诈骗的罪行,两者结合起来才是隐私。隐私的保护,我们在比较传统的环境下只是采用了加密的方法,把PII加密以后就可以了。但是在大数据的背景下,隐私可能有一些啊问题,因为隐私保护在传统的或者是现在的破坏数据完整性就是隐私保护的最主要的手段。就是PII跟那个人的属性的结合,传统的方式就是破坏数据的完整性。但是大数数据混合使用下,我们可以通过数据整合恢复数据的完整性,这个时候个人的隐私还是保证不了的,这也是在大数据环境下对个人隐私的挑战。

第二个挑战,就是大数据整个应用成功的属性是万众创新,并不是几个科学家在里面想一想就能促进整个的大数据的创新的成功。这个理念还是克强总理提出的万众创新,每个人都从自己的角度上去理解数据的内涵,进行一些数据的分析。这样的话,这种局面就打破了传统的数据安全方面的最基本的理念,就是正确率,或者是分类工具。我们的数据在传统的组织里,一般认为首先它有部门属性的,研发的,市场的数据。第二部分,再把某一个领域里的数据按照什么公开,保密,进行一个分级。在这样的体系下,一般的数据的季度来讲,增加用户,再给用户加到用户组里,采用这样的体系,这样的体系是比较僵硬的。这样的话,传统的体系也受到了很大的挑战。

第三个方面,数据驱动业务。造成的数据的可信性成为了重要的安全对象。现在虽然说没有实现,但是我们一般开大数据的会议上都会讲,未来的经济是数据驱动的。但是我们从一些互联网的厂家上就能看到这个苗头;比如说像这样的某一个搜索厂家,对他来讲,他的排名,在搜索结果里的排名是一项很重要的业务,是特别主要的来源。但是,在这种情况下,每个人都希望我们的排名在上面,在前三页,最好是能排上,出现了很多这样的搜索引擎优化的业务。他们就是分析某个厂商的排序算法,然后针对这些算法的弱点,有意识的编造一些数据输入到排序算法里,把他的网站排名提高起来,这个时候对这个厂家,对这样的搜索引擎的公司的信誉度打击是非常之大的,会直接影响他的销售。那么在大数据的年代里数据的可信性怎么判断是很重要的问题。

我们提到三个挑战,华三对于数据安全有自己思考,在方法论方面和具体工作方面也投入了经历。华把数据安全体系分成两块,第一块就是最核心的,就是数据。从数据的产生一直到消亡的各个阶段进行了分析。最主要的安全原因是使用,我们在每个阶段里,从数据使用的角度上,我们给它数据过程的角度分析数据的安全问题。