北京大学化柏林:多源数据融合方法与应用

提到政策,大数据可以做的事情就更多了,比如反腐,我们有金融大数据,现在打虎的成本蛮高的,现在的反腐都是主动的。很多腐败的事件和案例,贪污受贿不会放在自己的名下,如果我们把人口的数据融合上,把行政的数据,通过家人或者秘书会发现,把工程项目的数据跟他融合在一起,可能会有更好的监测。前段时间我们给一个政府去做多源数据的融合,他是综合治理部门,他的数据融合的渠道有很多,和垂直系统的交换,还有网络信息采集、共享平台的交换,现在的系统越来越多,不同的系统中数据如何来共享和对接,还有空间的数据,有些社区的台账,社区的基层工作人员报的数据可能不是网络的,就像我们在银行填申请单一样纸版的数据,包括移动终端采集的数据。对这些数据驱做建模和整理。

对于一个企业来讲,我们的数据包括三方面,我们自有的数据、我们购买合作的数据和交易的数据、公开信息来源的数据,把这些不同类型的数据融合在一起,这是电子商务里的一些交易数据的融合,历史的信息、检索日志的信息、上网行为的信息、地址的信息。现在大部分电子商务公司还是不去搜集你的收货信息,如果搜集这种信息的话用户画像就更清楚了,现在可以知道你什么时候在单位什么时候在家,这些数据是可以分析的。整个的多源数据融合,从理论方面有这样一些。D-S证据和深度学习的算法,去处理一些重名的情况,对技术的问题实现历史数据和外部数据的融合,线上线下的融合、传感器硬数据与软数据的结合,实现这样一些应用,这是整个的体系。

多源数据融合整体上是实践驱动的领域,和大数据一样。社会人文的数据和物理信号的数据同样重要,商务领域更加重视多源信息进行交叉印证与关联分析。我的演讲就到这里,谢谢!