凭安征信杨茂江:大数据环境下征信相关问题探究

第三,作为征信从业者来说,征信机构本身自己产生数据没有任何一家征信机构自己产生数据的,芝麻信用的数据主要来源于淘宝支付宝的交易,法律上来说是两个主体,所有征信机构要申请个人征信牌照要新注册一家公司,新注册的从哪儿来数据,数据一定是来自其他的机构,叫数据信息提供方,这有一个很大的疑问,用户签了协议认可了征信机构数据采集行为,是否意味着信息提供者,比如电信运营商,基础公众事业服务商,水电煤,他在面临用户隐私被侵犯的时候就没有责任了吗?这个可能从法律上来说是另外一个概念,因为征信业管理条例只是国务院的一个条例,在这个条例上还有更多的上位法,比如民法,你侵犯了我的公民隐私,还有《刑法》352条非法获取公民个人信息罪,这一条是否说明信息提供方不该承担责任,我想不是这样的。从这个分析来说,如果这些点没有一个好的解决方案,没有一种好的思考方式,可能就是一两件个人隐私泄露事件造成本来可以蓬勃向上欣欣向荣的行业就夭折了,可能在座的各位投入了时间青春金钱去做的事业,由于这种不可控的因素夭折了。在这里我想提出这个问题,大家来思考和探讨,我们有我们的一些思考,我们认为,特别是在当前这个环境下,从业者也好,信息提供方也好,我们至少要做到三点,第一,在得到用户同意之前真的不能采集用户信息,这里有一个问题,比如央行发个人征信牌照,他总说你首先得有数据没数据做什么大数据征信,这是不是个问题?我相信这也是困扰监管机构的一个问题,这个问题至少在今天我讲之前能把这个事情说清楚的人不是很多。

第二个,信息提供方在征信机构取得用户同意之前,这个数据不应该把公民的个人隐私给到第三方征信机构。第三,作为一个自然人来说,从情感上从基本的人权,从基本的出发点来说我们都应该有知情权,我应该知道你采集了我哪些数据,这些数据是怎么用的,这是应该的,所以这三点,我们认为作为一家征信机构和信用服务机构应该做到的,作为从业者,我们确实采集了个人用户的信息,采集了企业的信息,如果你连用户都不尊重,可能这个事情确实是走不通。第二作为一个征信机构我们自身并不产生任何的数据,你必然是和其他的机构合作,这个时候我们应该从机制上,从做法上,要维护或者是保护我们信息提供方的权利。

我们怎么做呢?这个事情也不复杂,信用主体,举个例子,他因为使用了运营商的服务,不仅仅是运营商,公众事业银行等等。他通过用了服务商提供的服务,服务商肯定采集了他的数据,比如运营商有这么一条记录,手机号姓名,当月消费额,301块,这是运营商本身数据库里有的。这时候我们怎么做?我们在跟运营商合作,我们跟所有的数据提供方合作的时候,这是我们提出的,希望他把标识信息做一次算法,之后把这样的数据放在你那也可以,放在我这儿也可以,这不重要。我们得到这样一个记录,这个结果是手机号+姓名的值,301块。大家如果对计算机懂一点,这个原理非常简单,他解决了很大的问题。

首先说的这个Hash算法是不可逆的,拿到这个结果不能推导出这个,如果有安全专家说用Hash(Mend)等类似的破解算法,那个是原文很短的情况下,如果加上姓名这个组合就是无穷的,通过这个结果推导出这样的组合是不可能的。通过这样一个算法,我们征信机构拿到的数据是不含个人的身份标识的。没有户的身份标识不叫用户隐私,因为我不知道你是谁,所以这一点,我们成功的实现了一点个人隐私的脱敏。从监管的角度困扰大家的问题也得到解释。我要给你发个人征信牌照,你必须有大数据,在没有用户同意之前你不能采集用户数据,经过我们这样一做之后这个问题就解决了,如果你有足够多的合作伙伴,你只要脱敏,按照这种方法脱敏之后,即使有中国13亿的数据,因为你在没有得到用户授权之前是没有用户标识的,你不知道他的姓名和手机号就不叫个人隐私了。但是这时候你有大量的数据,你有这个数据之后怎么用?这是一个典型的场景,信息主体,比如到银行申请贷款,银行给我来一个信用服务的委托,这时候我做一个用户匹配,结果返回来,第三步信用服务委托的时候,这时候因为我去银行贷款,我一定把手机号姓名告诉银行,这个时候银行说你必须给我授权,这都很容易做到,用户的姓名手机号给我之后,这里做了一个相同的操作,在前面做一个相同的计算,相同的原文输入只出唯一的结果,这样在库里,就能在预处理库把这个拿出来,我得到了用户的授权,就得到了这条记录。这是一个很小的技巧,但是这个技巧确实对这个行业有非常重大的促进作用。