北京大学化柏林:多源数据融合方法与应用

中国IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。28日上午大数据推动金融创新分论坛北京大学信息管理系研究员、助理教授化柏林做了主题演讲。 

500-333文章照片-大数据推动金融创新-化柏林

北京大学信息管理系研究员、助理教授化柏林

以下是化柏林演讲实录:

化柏林:很高兴有这样一个机会对多源数据融合的研究跟大家做一个交流,刚才听了工行和建行两位老总的介绍,我感觉心里特别踏实,为什么说踏实?因为我的工资在工行里,我的公积金在建行里,我的主要收入都在这两个银行里。大家通过这两个PPT可以发现一些共性,这个共性就是他们是在文地中谈创新,这是银行特别是国有银行的风格。我们谈互联网谈大数据创新的新型企业不是这样的思维模式,上来就是讲颠覆,就是抛弃一切。前面那种技术平台的架构都是从过去的技术开始逐步演进过来,钱放在这两个银行里我是放心的。

他们的差异性和信息安全的问题。我先举一个例子,前年斯诺登事件爆出来之后,很多新闻媒体都在说个人隐私信息泄露的问题,一个国家一个组织花这么多钱关注数据和媒体,他会关注一个普通网民的个人信息吗?我觉得是不会的。除非作为用户的群体去分析这个群体的特征。棱镜计划主要关注什么,第一是恐怖,第二宗教文化变迁的战略影响。第三,中国与发展中国家的科学技术与军事转型,我们国家每年的863计划、973计划、十一五重大专项等等项目,每当我们公布出名单,国外就会迅速地跟踪和分析。国内搞科技情报,我们也是一样,美国每年出来一些新项目,他们的大飞机、航空航天领域的技术也会迅速地被我们跟踪。还有能源和环境的目标任务。要实现一些目标的基础,像谷歌、Facebook的数据,基于这样的数据类型,我们在想仅仅有这样的数据无法实现刚才的目标,要实现这样的目标就得把这些信息融合起来,通过谷歌的检索日志可以看出关注信息点的兴趣及变化,根据Facebook、paltalk可以看出社交。把所有信息融合到一起,对一个用户的画像,对恐怖分子的头会有更加清晰的认识。这对于我们金融大数据也有一定的借鉴和参考意义。

再来看一个例子,这是在网上广泛流传的例子,根据丹麦的统计数据,截止到2002年42万人中有14249人被确诊患癌症,按照流行病的预测有1.5万例,预测使用手机和癌症的发生并无直接关联。只看这个案例好像没什么问题,根据WHO的统计,全球前十名癌症发病率的国家分别为丹麦、爱尔兰、澳大利亚等,看这个指标,发病率是一个好的指标,排在前边几位的都是非常发达国家的国家或者是国民福利比较好的国家。但是我们把这两个数据放在一起,第一个数据42万人里有14249,概率是3.4%。第二个数据10万人里有326,数据仅为0.33%,这两个数据放在一起我们可以断定肯定有一个数据是错的,因为差了一个数据级。我们查了原文,第一个例子是错的,这个例子在网上流传得很多,单看单个数据没有问题,但是在不同数据放在一起做交叉验证和融合,可能会有一些问题和发现,对于金融大数据也有借鉴和参考意义。我把不同类型的数据放在一起去做融合、交叉和比对就会发生一些新的问题,对于风险的防控会有更好的监测。

大数据特点与分析理念,三年前谈还有人听,现在再谈已经没有人听了。除了这三个理念的转变,数据的基础、过程、目标上还有一点很重要的,过去我们注重单一的数据,现在我们需要多元的数据,我们用单一的数据去写数字报告已经很难吸引人,去得到领导的肯定和关注了。不同的企业在寻求跨界和融合,去打通数据,使数据的价值有倍增的效应。为什么这么说?一方面是单一的数据有失全面性,无法全面刻画事物及事物运动的变化。单一数据的可靠性和真实性有时候难以判定,通过多源数据的交叉引证有助于对数据的真伪性辨别,数据越来越大,我们辨别数据真伪的能力有待于提高。从单一数据里发现的洞察是非常单一的。多元数据可以有更多的发现。