如何用大数据揪出一个骗子?

中国IDC圈6月14日报道,有人从偏远的山村低价购买身份证,以每个身份证几百元的价格卖给下家;

黑客开发出自动化的程序和脚本,寻找、开发最先进的移动端模拟器;

在无数的打码平台上,想要赚外快的人们正在以每个一分钱的酬劳手动输入他们看到的图形验证码;

所有的“分工”都指向一个明确的目的:把某 O2O 或金融理财类 App 用来招揽新户的高额补贴瞬间“薅”光。

对于很多创业团队来说,新业务往往会在“薅羊毛”团伙的狂轰滥炸由于补贴支出过于庞大而被迫下线。然而这还远远不是全部。在赛博世界里,针对各种业务的“灰产团伙”已经集结成军。

大数据

【在QQ群里刷屏的“羊毛信息”】

大数据会出卖骗子吗?

对于O2O行业,薅羊毛、刷单和垃圾注册可能瞬间拉倒一个平台,对于互联网金融来说,恶意借款、信用欺诈同样让公司蒙受巨额损失。最可怕的问题是,这些遭受损失的公司可能根本无法定位到对手在哪。

哪里有压迫哪里就有反抗。在这个“盗匪猖獗”的凶险环境里,出现了专门使用顶尖技术实现反欺诈的“民兵”。对于同盾科技的反欺诈及基础产品总监祝伟来说,他相信大数据和相关技术就是一盏火把,可以驱除眼前的蒙昧无知,看清敌人的一举一动。

通过对正常用户的分析,可以得出一个行为模型。而一个潜在的威胁者,出于恶意目的,他的行为一定和正常的用户有所不同。

祝伟告诉雷锋网,找出“骗子”的行为特征在各个数据维度上的特点,并且判断出潜在的风险,就是同盾科技的核心技术。 如此看来,足够大的数据量就像一瓶显影液,在浩如烟海的人群里让骗子现形。但是,究竟哪些行为会出卖骗子呢?

坏人的蛛丝马迹

代理 IP

坏人永远不希望受害者带着警察找上门。所以,在干坏事的时候,他需要一个代理IP。

任何一个互联网用户访问某网站的时候,都会被分配一个IP地址,和网站通信的过程就相相当于邮寄一封封信。因为需要回信,所以所有访问者必须填写自己的地址。而“他们”显然不希望自己的真实IP被知道。所以他们会通过代理软件,通过一个跳板访问网站,这样就可以隐匿真实的 IP 地址。

而我们要做的,就是用模拟IP代理协议来探测一个 IP 究竟有没有对外提供代理功能。通过扫描的方式,可以识别绝大多数的代理 IP。但由于 IP 的时效性比较差,有可能前一天这个 IP 是代理 IP,而第二天就变成了正常的 IP,所以我们的检测基本上是准实时的。

但是,代理 IP 只是评价一个访问者是否具有风险的千万条规则中的一个,想要定位到具体的人,还需要其他的判定条件,例如:精准地定位到这个人手中所使用的设备。

【某 IP 代理软件】

设备指纹

如果面对面,我很容易识别出你用的是什么手机什么电脑,你的设备会在我心中留下一个对应的形象;但是下次见到你,我都很难判断你手上的手机究竟是不是和上次一模一样的那个。而如何能在千里之外,只通过数字和代码就为设备打上独一无二的“指纹”,则更加艰难。

“每当一个设备连接到网站,系统就会在权限内探测尽可能多的设备信息,例如终端的环境、MAC地址等硬件参数。通过诸多数据为每个设备分配一个ID。”

祝伟告诉雷锋网,设备指纹可以应用在很多场景中:

很多账户通过同一个 IP 地址登录网站,这件事情有可能发生。例如一家公司的 Wi-Fi 可能连接了100名同事,此时他们共用一个 IP。但是这100名同事中有10名登录淘宝的可能性很大,这并不是异常。所以在这个情况下,IP 并不能作为判定条件,而是要采用更精细的设备指纹。一个特定的设备上,如果有10个账户登录淘宝,这样的行为本身就是一种异常,表明注册刷单的可能性很大。

不仅如此,通过设备指纹还可以轻松定位出刷单团伙。

几个账户同时在一个设备上登录,而这几个账户又曾经在其他设备上登录过。根据这样的“交叉登录”行为,可以勾勒出一个团伙使用的的所有设备。当然,设备指纹作为一个重要的维度,还要结合 IP、用户提交的身份证信息、用户其他行为等等,就可以很精准地描绘出团伙的行为和规模。