北京大学化柏林：多源数据融合方法与应用_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

多元数据的理论。融合过去起源于军事领域，在传感器、地理空间就是我们所说的硬数据里得到了应用和发展，但是随着社会网络的发展，随着人际交际数据获取的越来越容易，所以注重软数据的融合也开始走向了新的应用和发展。我们通过形式表现方面，多元表示，工行叫机构建行叫单位，指的同样的事物，不同的数据融合的时候涉及到表示的问题，语法结构层次做相关的分析和揭示。逻辑语义层，意义建构理论解释它的内容。

现在的多源数据融合，包括三方面，多源、异构、多语种，多语种现在说得比较少，真正做多源数据融合，我是搞科技情报的，所以我们经常关注国外的文献。昨天有人讲到一带一路，一带一路一定会涉及到多源数据，获取土库曼斯坦的数据，无论是中文还是英文的数据非常少，像这些国家一定要把多语种的数据融合到一起，这里面带来很多技术的问题。同型异源，比如都是消费的数据、存款的数据。还有异质异构，比如理财产品。

科技情报里经常用期刊论文、会议项目、著作专利、学术论文，电子商务文献的发现，发现电子商务最高的高峰是2000年，电子商务产业是2010年后才有爆发式的增长，通过文献和产业有十年之久，通过学术论文的文献来预测专利，通过专利来预测一些技术的市场，根据不同类型的信息的时间差的规律，去寻找这种规律，利用这种规律来进行预测。我用产业的数据去预测产业是预测不出来的，用同一个数据去预测同一个数据是很难的。数据的融合涉及到线上与线下，历史的数据和实时的数据，金融行业积累了大量的历史数据，和实时数据的融合也非常关键。

现在大家强调大数据的实时性，我突然感觉有时候历史的数据特别重要，比如今天早上开车过来开会，我并不关心今天早上的路况，我更关心上一周今天早上的路况，因为我需要决定我几点出发比较合适，6点多出门肯定是不堵的，但是来的太早了，8点出门有可能晚了，所以我需要关注上一周的今天的数据规律，从7点到8点半的时间段的路况如何，来换算时间的关系，计算出行需要花多少时间。我经常看下周五要去哪儿，这个周五去看一下路况，决定要花半小时还是四十五分钟，历史数据是非常重要的。实时数据比较容易获取，但是历史的数据，看交通局的网站、百度、搜狗都是看不到的。外部和内部的数据融合。

融合的层次，数据级、特征级、决策级，要看面向的应用场景。融合问题，字段映射、字段拆分，有些地址分析，有区有路有门牌号，这样的东西我们要做拆分，做分级管理，然后才能做一些融合。不同的数据库里，不同的系统里，我们对于同一个地址的描述有时候是不一样的。还有数据率重的问题，不同的数据融合到一起，有些数据是互补的，有些数据是重复的，重复的会涉及到这样一些问题。异构加权的问题，VIP数据跟普通用户数据融合到一起需要加权的问题，这样做产品的时候才会有更好的效果性。

融合清洗的时候会涉及到很多问题，数据统一标识、数据脱敏处理、数据更新与同步、数据交换与共享、数据清洗与比对、数据记录滤重、字段映射与互补。基于这些多源数据可以做哪些分析？基于关联关系的融合是空间的维度，基于时间关系的融合、基于关联关系的融合。基于关联关系主要是通过相关性的分析，物与物的关联、人与物的关联、产品与需求的关联，现在是可以计算的，可以算出需求，产学研的分析、上下游的分析。

我们常用的企业有时候想找竞争对手的核心技术，A企业和某个学校的教授合作，你不太方便再跟他合作，那我们招聘这个教授毕业带的博士来工作，因为这个博士对博导的工作方式非常了解。通过这样的非直接的方式，这个在大数据时代是可以的。通过论文预测专利，通过专利来预测市场。基于空间关系的融合，聚类分析，看用户聚类与画像、产品聚类、人员聚类。社会网络分析，看合作网络、关系网络、引文网络、链接网络。异常分析，孤立点分析、突然消失分析。

就国家二胎的政策，这个经过很多的计算，通过公安统计、民政、卫生、财税、教育、劳动与社会保障，把所有数据融合在一起，当然现在这个政策的推出有一些诟病，本来是做社会的承受力压力、教育、保障、人口老龄口等等一系列问题，我觉得这个系统做得没有问题，但是少了一个因素，只是从行政者管理的角度，没有考虑老百姓生孩子的意义，特别是在北上广的城市很多人不想要那么多孩子，因为压力太大了，所以没有考虑用户的需求。如果把这样的数据融合在一起，我觉得政策推出得会更合适、更受欢迎，因为这个政策推出稍微晚了一些。

2/3 首页上一页 1 2 3 下一页尾页