北京大学化柏林:多源数据融合方法与应用

多元数据的理论。融合过去起源于军事领域,在传感器、地理空间就是我们所说的硬数据里得到了应用和发展,但是随着社会网络的发展,随着人际交际数据获取的越来越容易,所以注重软数据的融合也开始走向了新的应用和发展。我们通过形式表现方面,多元表示,工行叫机构建行叫单位,指的同样的事物,不同的数据融合的时候涉及到表示的问题,语法结构层次做相关的分析和揭示。逻辑语义层,意义建构理论解释它的内容。

现在的多源数据融合,包括三方面,多源、异构、多语种,多语种现在说得比较少,真正做多源数据融合,我是搞科技情报的,所以我们经常关注国外的文献。昨天有人讲到一带一路,一带一路一定会涉及到多源数据,获取土库曼斯坦的数据,无论是中文还是英文的数据非常少,像这些国家一定要把多语种的数据融合到一起,这里面带来很多技术的问题。同型异源,比如都是消费的数据、存款的数据。还有异质异构,比如理财产品。

科技情报里经常用期刊论文、会议项目、著作专利、学术论文,电子商务文献的发现,发现电子商务最高的高峰是2000年,电子商务产业是2010年后才有爆发式的增长,通过文献和产业有十年之久,通过学术论文的文献来预测专利,通过专利来预测一些技术的市场,根据不同类型的信息的时间差的规律,去寻找这种规律,利用这种规律来进行预测。我用产业的数据去预测产业是预测不出来的,用同一个数据去预测同一个数据是很难的。数据的融合涉及到线上与线下,历史的数据和实时的数据,金融行业积累了大量的历史数据,和实时数据的融合也非常关键。

现在大家强调大数据的实时性,我突然感觉有时候历史的数据特别重要,比如今天早上开车过来开会,我并不关心今天早上的路况,我更关心上一周今天早上的路况,因为我需要决定我几点出发比较合适,6点多出门肯定是不堵的,但是来的太早了,8点出门有可能晚了,所以我需要关注上一周的今天的数据规律,从7点到8点半的时间段的路况如何,来换算时间的关系,计算出行需要花多少时间。我经常看下周五要去哪儿,这个周五去看一下路况,决定要花半小时还是四十五分钟,历史数据是非常重要的。实时数据比较容易获取,但是历史的数据,看交通局的网站、百度、搜狗都是看不到的。外部和内部的数据融合。

融合的层次,数据级、特征级、决策级,要看面向的应用场景。融合问题,字段映射、字段拆分,有些地址分析,有区有路有门牌号,这样的东西我们要做拆分,做分级管理,然后才能做一些融合。不同的数据库里,不同的系统里,我们对于同一个地址的描述有时候是不一样的。还有数据率重的问题,不同的数据融合到一起,有些数据是互补的,有些数据是重复的,重复的会涉及到这样一些问题。异构加权的问题,VIP数据跟普通用户数据融合到一起需要加权的问题,这样做产品的时候才会有更好的效果性。

融合清洗的时候会涉及到很多问题,数据统一标识、数据脱敏处理、数据更新与同步、数据交换与共享、数据清洗与比对、数据记录滤重、字段映射与互补。基于这些多源数据可以做哪些分析?基于关联关系的融合是空间的维度,基于时间关系的融合、基于关联关系的融合。基于关联关系主要是通过相关性的分析,物与物的关联、人与物的关联、产品与需求的关联,现在是可以计算的,可以算出需求,产学研的分析、上下游的分析。

我们常用的企业有时候想找竞争对手的核心技术,A企业和某个学校的教授合作,你不太方便再跟他合作,那我们招聘这个教授毕业带的博士来工作,因为这个博士对博导的工作方式非常了解。通过这样的非直接的方式,这个在大数据时代是可以的。通过论文预测专利,通过专利来预测市场。基于空间关系的融合,聚类分析,看用户聚类与画像、产品聚类、人员聚类。社会网络分析,看合作网络、关系网络、引文网络、链接网络。异常分析,孤立点分析、突然消失分析。

就国家二胎的政策,这个经过很多的计算,通过公安统计、民政、卫生、财税、教育、劳动与社会保障,把所有数据融合在一起,当然现在这个政策的推出有一些诟病,本来是做社会的承受力压力、教育、保障、人口老龄口等等一系列问题,我觉得这个系统做得没有问题,但是少了一个因素,只是从行政者管理的角度,没有考虑老百姓生孩子的意义,特别是在北上广的城市很多人不想要那么多孩子,因为压力太大了,所以没有考虑用户的需求。如果把这样的数据融合在一起,我觉得政策推出得会更合适、更受欢迎,因为这个政策推出稍微晚了一些。