大数据风控在反欺诈上的应用
金科应用研院Jackie Liang2020/8/5 14:15:15

欺诈风险识别在整个用户风险管理周期中是特别重要的一部分,欺诈风险可能来自中介、黑产大军甚至机构内部工作人员。

古人云:牵一发动全身,一旦金融机构风控系统被欺诈团伙所攻破,会在极短时间内造成难以想象的损失。

传统信审Vs大数据反欺诈

OPS和CE也就是我们常说的传统信用审批,其实也可以在一定程度上进行欺诈风险识别。

但是大量的人工审批员、流程化作业以及电核成本等方面,传统信审甚至专业的案件调查,都不可能全面快速的识别出来自不同渠道和方式的欺诈案件。

依托大数据技术,利用数据的驱动性提升欺诈风险的识别,是目前风控最需要提升的方面。

新兴数据逐渐登上风险评估舞台

得利于现如今数据指数级增长和获取数据的便利,金融机构风控可以使用的数据不仅局限于传统的纯金融属性数据,社交类数据、消费类数据、行为类数据、多源银行账户数据等这些热门新兴数据都可以拿来分析挖掘,用于客户的风险评估。

比如,社交类数据可以是通话详单、通讯录信息、社交账号;消费类数据可以是电商交易记录、出行滴滴打车记录、O2O消费;行为类数据可以是APP活跃时长、APP使用时段、APP高频点击区域、手机上网时长等。

我想提醒大家,趋势数据在整个风险评估中越来越重要。贷款公司以前只关注借款人在申请借款当下时点(或当月)的信用表现,比如当下的信用分数为600分。但观察期回溯时间拉长,近半年客户的信用分从500到600分和从700到600分会有很大的不同。

多源银行账户数据在未来是十分有效的信用评估数据。

2018年是中国的“开放元年”,中国Open Banking是一个正在进行革命性的趋势。

申请人在申请过程中能够选择链接银行账户,通过第三方公司(Gamma O)的整合,贷款公司可以获得很多关于借款申请人银行账户的数据。

其中最重要的被用来评估信用风险的数据包括:存款数据、收支数据;被用来评估欺诈风险的数据包括:行内黑名单。

通过大样本且丰富维度的新兴数据,使得欺诈交叉验证、关联分析、欺诈团伙特征挖掘以及团伙识别变的精准且高效。

反欺诈模型

反欺诈模型从原理上分为:监督学习模型和半监督学习模型。其中监督学习常用的算法包括Decision Tree、Random Forest、AdaBoost、SVM等。相较于信用评分模型,反欺诈模型更关注模型的精准性。

由于黑样本的缺乏,有效确认难度大、调研成本高,所以导致欺诈模型目标变量的定义很有限或者无法充分验证。在建立反欺诈模型的时候,资产质量分析中的逾期变黑趋势就成为一种定义目标变量的新方法。

逻辑很简单,坏人一直都是坏人,好人可能变成坏人,一部分好人是隐藏的坏人。通过资产质量逾期变黑的回溯,从逾期客户里挑选出一部分隐藏的欺诈分子,用于扩充整个黑样本空间,实现欺诈模型的识别广度。

文章最后,附一张反欺诈模型的建模流程图,以供读者朋友们学习。


展开全文
相关阅读
资讯查询取消