大数据和互联网金融间不得不说的故事!

中国IDC圈6月3日报道,大数据可以说是2015年和2016年的重点话题,随着国家对此的鼓励与推进,国内外各金融与类金融机构、互联网金融企业纷纷上马大数据应用的探索,冀望大数据可以带来技术上的突破,实现自动化、着手升级现有风控模型体系、探索新型态基于场景化的消费金融市场、提升催收效率、建设互联网深层次大面积获客能力,从而彻底提升国家金融行业的国际竞争力。

大数据和传统数据的差异

谈到大数据,首先应当了解,对金融行业来说,大数据“大”在哪里,和传统数据在本质上有什么样的不同,才能够更好地理解和更有针对性地应用这宝贵的新资源。就如同原油也需要经过层层的提炼,才能成为人类可以大量应用的石油产品,大数据也需要经过精心的筛选和应用设计,才能起到实质的功效。

传统金融机构,在建设信用风险打分模型的数据来源主要有几个方面:第一,人民银行征信中心数据;第二,客户自己提交的外部个人财力证明数据,如房产证、汽车行驶证、单位开具的收入证明等;第三,金融机构或集团内部积累的客户历史数据,如银行的工资流水,历史贷款数据,保险数据等。

大数据和互联网金融间不得不说的故事!

1.传统数据的优点和缺点

传统数据优点是这些数据和金融的价值相关性高、数据采集规范。然而缺点是维度较小,并且覆盖的人群有限,对于新形态的互联网模式适应程度较差,也不容易达到普惠覆盖的目的。

金融机构基于这些高价值数据,纷纷设计出各种信用风险评分模型,最终实现对客户信用风险的打分评估,是目前较为成熟的运行方式。

2.大数据的特点

大数据时代的客户信息渠道更加多元化,主要包括内部收集和外部渠道,内部收集指各互联网生态体系内,长期积累的用户数据。外部渠道则是指各种数据源采集,如通信数据、社保数据、法院失信数据、交通数据、保险数据等等。

其数据特征包括几个方面,第一,数据覆盖面广。各大互联网集团,通过各种APP采集积累了用户行为各方面的数据,如搜素历史数据、电商交易数据、支付交易数据、社交数据,以及各种APP采集的用户行为数据等等。第二,大量非结构化的破碎数据导致的数据不准确。数据采集渠道的多元化和非标准化,随之带来的问题就是,客户信息不准确,同一客户不同维度的信息经常不完整或匹配不上。第三,数据来源不稳定。不少大数据采集通过灰色渠道收集个人隐私数据,数据连续性和可持续性欠佳,往往有数据过时或缺失问题。第四,消费数据和信用数据关联性弱

尽管市场上常见的大数据机构收集了各种维度的客户行为信息,试图描绘客户画像,但消费类的数据和客户信用风险以及还款意愿并不直接相关。目前的大数据公司往往缺少内部征信数据、外部征信数据、个人资产数据等强金融变量数据,而集中在客户衣食住行和社交信息,要直接拿来作为信用风险评分模型的有效性依旧有待考验。考虑到大数据和传统金融数据的差异性和互补性,所以更多的应该是如何通过模型的设计和提炼,使得这些大数据源经过提炼,可以从原油变成成品石油般广为应用。

大数据在借贷中的应用

1.借贷反欺诈

由于网络借贷和传统金融面对的受众区别,借款人主要来自线上,考虑到目前网络犯罪的试错成本极低,为数众多的网络借贷平台很容易成为诈骗集团觊觎的目标,一般根据行业经验,网络借贷平台往往都会有高达九成的借款需求存在欺诈和骗贷行为风险。因此借贷反欺诈的重点在于从100名潜在借款人当中,准确识别出真正有还款意愿的10名借款人。

通过技术的防范手段很多元化,一般通过核实手机号、身份证号码、电脑唯一设备号、手机唯一设备号,可以进行下列过滤识别手段:交叉比对借款人登记的住家地址、公司地址,以及申请人当时申请的定位地点,如果差距超过10公里,风险系数极高;某些地址或大楼,属于申请诈骗高发地址的,风险系数偏高,会得到一个分值;发现和多个平台同时存在借款记录的,风险系数偏高;手机号属于法院黑名单、租车黑名单、使用时间段不足6个月、被多次标记恶意骚扰电话等,风险系数偏高;6个月内,同一个手机设备号,曾经在银行、小贷公司、多家P2P平台有过多次申请记录的,风险系数极高;手机设备号近一天关联申请人3个手机号以上的,风险系数极高;手机号与设备是否匹配、第一次激活时间距离申请贷款时间较近,风险系数较高。