大数据征信如何为一个人建立数据肖像?

说到机器出错的问题,举一个特定的例子,比如我们这种媒体从业者,因为职业需要天天浏览P2P、套现等等的网站,机器会不会把我判断为信用状况很差、偿还能力很低的人?会怎么修正?

这是有意思的问题。我想以“什么数据最重要、最容易建模”的说法来回答这个问题。

很多人认为,外围的行为数据能够比较准确地说明一个人的还贷能力,而事实上并不是这样子的。从机器学习建模的角度来说,所有的数据或者说独立变量可以分为三个部分:第一部分是核心金融数据,如经济能力、经济行为是怎样的,有没有还钱等;第二是泛金融数据,比如住在什么小区,购物消费记录是怎样;第三个才是社交数据,比如网上浏览的鼠标轨迹如何。

但是,这三类数据的重要性是完全不一样的,核心金融数据的重要性远远强于后面二者,而第三类所谓的网上行为或者社交数据用来反欺诈或许有用,但用来判断还贷能力是及其不靠谱的,所以说提问这个例子,会是众多变量中放到模型去考虑的一个,但绝对不可能因为这样的情况而把偿还能力拉低,或者判断为你的信用状况很差。

对个人建立数据肖像,是不是意味着对一个团队也可以建立数据肖像?这两者的差异大吗?

答案是肯定的。而个人征信和企业征信的差异,是在于当各个不同的团体产生后,数据的离散性,包括数据的可持续性都会是很有意思的问题,这些在建模过程中都会是不一样的。