大数据就像煤矿,那“大矿主”BAT 是如何运作金融大数据的?

新年开工,李彦宏的内部信就在朋友圈中引发了一波刷屏。李彦宏说,“这样一个时代,是很明显的金融创新的新时代”,这充分表明金融业务将是百度未来的四大方向之一。而他的一句“数据秒杀一切算法”,更是从侧面透露了以大数据为代表的人工智能技术将成为百度金融的必杀技。

金融创新很大一部分原因在于大数据和金融之间的结合。纵观BAT、京东、小米、万达、平安这些把触角伸到互联网金融领域的巨头,无一不是在大数据层面上有所布局。大数据和金融相结合,几乎已经成为金融领域的通用做法。

金融大数据

金融数据都像是煤矿,价值含量、挖掘成本更重要

谈数据必须先谈数据的完整度和价值含量。就像煤矿一样,大数据中的价值含量、挖掘成本比数量更为重要。非结构化数据,就像是有杂质的煤矿,无法直接使用。大数据还需要进行脱敏、提纯、结构化,才能变成可以被直接运用于商业层面的有价值的信息。

金融数据作为专业度要求更高的数据尤为如此。对于BAT三家而言,布局其实都比较完整。2015年年底的时候,阿里集团透露,在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据。

BAT三家公司,数据体积相差不会太多,三家几乎都有LBS、交易、社交等一系列不同维度数据,只是能力有所区别。

比如说,百度有地图、贴吧、糯米、外卖、Uber、携程、去哪儿;阿里有高德、微博、口碑、支付宝、飞猪、优酷等;而腾讯有微信、QQ、京东、新美大等。

三家数据核心优势可以如此简单划分

金融大数据2

百度:基于搜索而诞生的公共数据、需求数据。百度的优势在于数据最全面,数据样本比较复杂,数据的广度和多样性上比较强,拥有核心技术和数据矿山,而且是一座富矿。

阿里:基于淘宝天猫业务而诞生的电商数据、信用数据。阿里的核心业务在电子商务上,数据比较聚集,更容易做分析。这种数据类型的优势在于,更容易变现,挖掘出商业价值。

腾讯:基于微信、QQ诞生的社交数据、关系数据,以及游戏数据,相对较杂。不过,容易分析人们的生活和行为,从里面挖掘出商业、健康等领域的信息。

大数据领域有这样一种说法——所有的数据都是风险数据。而拍拍贷风险副总裁顾鸣博士之前提出过一个金字塔结构图。

金融大数据3

在这张图中,征信数据位于金字塔的顶端。往下走是消费数据、运营商数据、社交数据、行为数据以及其他数据。

越是靠近金字塔的顶部,大数据在风控领域的应用就会越直接,获取数据的难度随之增加,覆盖率当然会降低;相反,越是靠近金字塔的底部,大数据在风控方面的应用难度就越大,但是数据的数量和覆盖率都会变大。

把BAT三家套入这个金字塔结构中就会发现。阿里的数据离变现几乎只有一步之遥。阿里以电商-支付-信用为三级跳板,针对性很强,数据价值纯度高,金融数据的整合上做的也比较完善,缺点是覆盖面还是不够。不过,这些年来不断收购、入股优酷、微博、高德等一系列企业,阿里数据维度其实也在越来越丰富,也在不断往金字塔的底层下探。

腾讯有社交、行为数据,这些数据不能直接运用,但获取的信息会更丰富。而腾讯目前的大数据策略是先将产品补全,产品后台数据打通,形成稳定生态圈。本阶段先利用大数据挖掘改进自己的产品。后期有成熟的模式合适的产品,则利用自家的社交及关系数据时,开展对大数据的进一步挖掘。

虽说有人认为百度和腾讯很多数据是非结构化数据,在风控上的运用难度较大,很难直接商业化。不过,这些数据恰恰是金字塔最底层的数据。在普惠金融的环境下,互联网全域大数据带来的价值不可忽略。

百度的数据最为全面、完善,覆盖面最广。互联网环境下,每个人都会在网上留下痕迹。因此,位于底层的互联网行为数据覆盖面最广,维度最多样,对破解我国数亿成年人尤其是草根群体的信用空白难题帮助最大。