【干货分享】外部大数据在金融风控的应用
2017/2/27 9:28:33

随着我国经济的不断发展,金融市场的不稳定性不断加剧,在经济全球化的大背景下,银行和互联网金融势必将面临着诸多的风险。因此,加强风险控制的重要性也逐步的突显出来,基于电信运营商大数据的风控模型在银行、互联网金融中的应用,建立的评分卡模型能为银行、互联网金融的风险控制提供一些帮助。

目前,国内的风控需求主要来自银行和互联网金融。传统的银行风控报告仅包含在银行有借贷款行为的大众。

一方面,中小微型企业(主要是非国有企业)、部分个人和“三农”的融资成本高昂,融资需求一直处于难以满足的阶段。

另一方面,银行和互联网金融公司普遍缺乏有效的风控模型支持,原有的评分手段原始粗放,人工审核中繁琐的步骤更是表现出效率低、成本高的特点。反观电信运营商数据,详细记载了人在现代化社会的“指纹”信息、客户联系对象的变动、上网数据、IPTV数据、电信定位、移动轨迹数据等都具有较高的价值。利用电信数据建立风控评分卡模型,对民众个人的风险评估用评分卡的分数来表示,以这种方式建立的评分卡在银行、互联网金融的应用其实就是Fintech(金融科技)。由于使用的数据全部来自电信公司。

因此,这个评分卡的分数可以说是对银行风控报告的补充,对商业银行也有着重要的参考价值。尤其是在互联网金融等存在风险较大的个人借贷的公司,客户要么在风险报告里缺乏借贷记载,要么记载大都不良,所以利用电信数据区分客户的风险评级更起到了决定性的作用。

加强风险控制迫在眉睫

中国经济转型和金融机构创新发展,增加了银行、互联网金融对风控的需求。

经济结构的持续多元化、增长模式由投资转向消费驱动、以及新型城镇化是今后长时期内中国经济深入转型、持续发展的重要驱动力。

经济活动主体已经演变为多种经济成分共存,非国企贡献正在持续增加。城镇就业人员中,国有和集体企业与私营企业的占比分别由2000年的41.5%和5.5%,变为2014年的17.4%和25.1%;而规模以上工业企业营业收入中,国有和集体企业与私营企业的占比也分别由2000年的38.7%和5.7%,变为2013年的9.1%和31.7%。

经济活动中消费贷款、个人投资、个人信贷等重要性日益突出;消费贷款市场在住房贷款、汽车贷款及信用卡等推动下快速发展。从2007年初到2014年末,在金融机构人民币资产中,消费贷款整体占比几乎没变,但住户贷款占比从10.8%上升到17.5%,增加6.7个百分点,其中消费贷款增加5个百分点,而企业贷款占比则从51.0%降低到44.1%。2007初年我国消费贷款余额2.5万亿元,到2015 年末已经超过15.7万亿元,年均增长率25%以上。

从经济活动主体的地域分布来看,一方面,伴随着工业化进程加速,我国城镇化经历了起点低、速度快的发展过程。从就业人口在城镇与乡村中的分布来看,1995年为28:72,而到2014年则变为51:49。另一方面,目前我国户籍人口城镇化率仅有36%左右,不仅远远低于发达国家80%的平均水平,也低于人均收入与我国持平的发展中国家60%的平均水平,城镇化明显滞后于工业化,还有较大的发展空间。预计到2020年左右,我国将有1亿左右的新农业转移人口和其他常住人口在城镇落户。

经济结构、经济活动模式和社会结构等多方面的不断变化,在给银行、互联网金融带来新的巨大需求的同时,也给作为现代金融服务最重要基础之一的风险管理系统提出了更高的要求。目前,这些代表着新的金融需求的群体,如中小微企业(主要是非国有企业)、部分个人和“三农”的融资成本高企在传统风控管理系统下评估记载的缺失,和新型城镇化所伴随的社会人员流动性日益加剧,更加剧了重构银行等风控管理的急迫性。因此,我们相信,建设适应经济深入转型需、覆盖面广、高效灵活、成本更低的风控评分卡模型的需求为银行、互联网金融的风险管理提供了广阔的市场。

在互联网金融领域,风控管理是投资人判断该平台安全性的重要依据。

风险控制是指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或 风险控制者减少风险事件发生时造成的损失。拥有好的风控管理平台,能为投资者提供一定的安全感,尤其是针对风险厌恶型投资者,他们更希望有平台能为他们投资的产品做出一个确切的评分。一旦有完善的风控平台,很多持观望态度的投资者也会实施他们的投资计划。

互联网金融还处于起步阶段,然而前面几个众筹网站欺骗投资者的事件,使得互联网金融还没发展起来就已经失去了公信力。本来互联网就是一个充满了不确定因素的地方,它看不见摸不着,还有可能被黑客侵入。因此互联网金融的投资者比其他产品的投资者更迫切的需一个风控平台为他们提供一定的数据,而且这个风控平台必须要由公信力极高的公司或者由政府来打造。电信公司就是这样一个拥有很高公信力的公司,它的数据来源于电信的客户,就是真实的数据,这样更能为投资者提供安全保障。

风控不是金融而是IT。Capital One 的创始人,Nigel Morris说过,风险评分不是金融,而是IT。传统的风控模式是“以原始粗放的评分手段为主,人工审核为辅”,其通过繁琐的步骤将客户填写的信息表进行拍照、归档等,后续再继续派专员进行回访、通知还款等形式来进行风控。不得不说这是一个效率非常低的模式,每一个客户都要一步不少的按照其模式进行归档。面对现代社会的飞速发展,这样传统的风控模式显然已经要被淘汰了,营运而生的就是大数据风控模式。大数据风控是通过在各个领域采集用户的各类信息,再通过一定的数据分析,给出客户的风控评分报告,这样的模式才是当今社会需的模式。放眼到大数据风控,显然这已经不是金融风控,而是属于IT的范畴,其关键步骤都是通过计算机来进行。这样的模式效率非常高,可以处理的数据量十分可观、数据维度多,而且运用范围广,这一定是未来的风控模式主流。

电信运营商数据是很好的建立风控模型的数据来源

银行风控管理的作用和不足。银行风控管理数据主要是来自于借记卡数据和信用卡管理数据,缺乏接待人其他个人行为数据参考。若借贷人缺乏个人历史信贷记载,那么风险评分就缺乏依据和准确性。同时,银行的风险控制系统并不能有效的评估小微信贷的风险等级,因为小微贷货主常常缺乏历史信贷记载或者历史信贷记载都比较差。

较之前的银行,在发放贷款时,风控系统有要求企业或者个人必须要有抵押,这在一定程度上有助于银行风险的规避,为贷款的按时收回提供了一定的保障。但是随着银行、互联网金融的不断发展,金融行业之间的竞争也越来越激烈,一些银行和互联网金融公司为了能够在竞争中处于有利地位,对贷款业务不断扩大,并且不断的增加贷款种类,尤其增加了对小微贷贷主的信用贷款,比如凭个人信用来发放贷款,这都大大增加了银行、互联网金融的风控系数。金融贷款品种的增加,让银行、互联网金融公司面临着越来越多的风险,进行信用贷款的诸多资料都是可以伪造的,并且这些造假数据都是为了针对目前银行、互联网金融的风控系统,令其失效,大大增加了贷款风险。

电信数据对风控管理系统的作用。目前银行正在寻求外部大数据来帮助他们做风险管理,其中电信数据开始作为其判断风险的重要依据。一般是要求借贷方提供电信账户密码,通过APP软件下载电信账单。特别是对小微贷、P2P等互联网金融公司,电信数据在信审、风险防范方面的重要性更是超过了本身的风控管理系统,这是因为如果客户不进行互联网金融消费或者之前没有过贷款记录的话,只依靠客户提供的基本信息是无法判别真假,更别说进行有效的风险评估。

运用电信数据建立评分卡将从另一个角度观察个人的风控状况,与银行、互联网金融自身的风控管理系统形成互补。电信运营商详细的记载了人在现代化社会的“指纹”信息。电话号码是IT系统内人的信息;上网记载和通话记载的背后是人的行为;基于手机和固网定位的背后是人的位置;流量分析和内容检测的背后是人的需求。因此,我们可以根据客户的电信数据信息,很好的预测客户的属性信息。

客户的账单和话费信息在一定程度上反映了客户的经济能力,同时客户的社交圈的经济水平也体现了客户的经济能力。客户的通话记载将会反映客户的交际对象,勾勒出客户的社交网络。同时,客户联系对象的变动可以作为衡量客户的社交稳定性,上网数据、IPTV数据能反映客户的喜好、倾向、消费等行为,电信定位、移动轨迹数据能显示客户生活、工作的稳定性。电信数据可以从用户行为、社交网络等数据进行分析,能对一个人的身份进行印证。社交网络、朋友圈、网络交易、网络查询记载和行动轨迹等数据分析已经成为常用的分析手段。

仅用电信数据建立风控模型技术可行。利用电信数据建立风控评分卡模型,对民众个人的评分卡分数情况进行评价,对电信运营商来说具有巨大的使用价值和商业价值。由于使用的数据全来自于电信的数据,因此这个评分卡分数可以说是对银行、互联网金融的风控管理信息的补充,有着重要的参考价值。尤其面对一些小微借贷,客户要么在银行风控体系里缺乏借贷记载,要么记载大都不良,所以用电信数据来区分客户的贷款风险更具有决定性的作用。

本项目开发出来的风控评分卡模型,将仅仅使用电信的数据,这与目前广泛讨论的建立大数据风控平台的思路截然相反。大数据风控平台包罗银行、电信、公安、保险、医疗等各个行业各类数据,虽然全面但是要协调各单位公司建立起来的大数据风控平台恐怕旷日持久。完全基于电信数据的风控模型将会在业务上更独立,发展起来也更迅速有效。

风控评分卡的建模属性变量则全部是电信用户的数据信息,其中包括客户的账单信息、详单信息、贷款网站的联系信息、是否有欠费等不良记载信息、定位基站信息等。

对于电信公司本网的客户,我们掌握其更多更详细的信息;对于异网的客户,上海鼎数信息技术有限公司(以下简称“鼎数公司”)也通过“异网客户属性预测”系统,预测异网客户的基本属性和基本行为等(表一)。

表一   预测异网客户

鼎数公司将运用电信数据进行分析和建模,找到目标变量与属性变量的关系,进而判定客户的哪些电信信息对个人风控指数的影响更为显著,从而建立可以预测客户风险分数的模型。鼎数公司的研究结果表明电信数据与贷款结果有很强的关联性,仅仅基于电信数据开发的风控评分卡模型达到了银行自身风控报告的效果。

鼎数公司研发团队独创的国际领先的“异网客户属性预测”模型,将在运用电信数据建立风控模式上起到重要的作用。我国有三大电信运营商,每家都拥有一部分人群的信息,理论上三大电信运营商的数据合并才能建立针对每个人的风控评分卡模型,但是运用“异网客户属性预测”系统,尽管不能完全掌握异网客户的属性信息,仍然可以分析异网用户与本网用户的详单通话数据,根据“物以类聚、人以群分”的原理来预测异网客户的属性,准确率更是接近80%。这样,使用“异网客户属性预测”系统,只需一家电信运营商的数据即可达到覆盖整个人群的分析效果。

创新的模式避免了客户隐私泄露

电信数据涉及到客户的隐私,使用起来必须慎之又慎。

创新的电信数据风控模型,先天上确保了电信数据的安全使用。鼎数公司的仅通过电信数据而的建立风控评分卡模型,在充分利用电信数据所包含社交、聚集、生活水平信息的同时,也在最大限度地降低了因为要跟其他行业或者公司匹配数据,而产生个人隐私数据的泄露风险。并且最终的结果以评分分数的方式给出,也避免了个人通话信息、行为和个人隐私的泄露。

模型训练阶段。建模时所制定的策略都不会直接泄露客户的信息,模型结果给出的是客户评级、层级、频率等的信息,充分保护了客户的隐私。建模数据都经过了脱敏处理,会把电话号码、身份证号码、通信地址等客户隐私信息去除(表2 )。

表2  通话详单

首先,建模分析人员并不知道这一纪录具体事何人产生,从而确保了数据的安全使用。其次,鼎数公司的技术人员必须到客户的环境中工作,所用电脑都无法与外部连接,确保数据不离开客户的服务器,物理上进行杜绝。

应用阶段,采用如下的嵌入式系统进行风控评分查询。

从个人风险评分查询(图1)可以看出,电信数据并缺乏离开电信运营商公司,输入的是身份证信息/ 电话号码信息,输出的是一个风险分数。不会有任何个人信息泄露。

亚洲最大的大成律师事务所出具了法律意见书。从法律上认可鼎数公司的运营模式。即使如此,在未来的运营中,也必须充分重视法律的风险,绝不可以侵犯客户的隐私。

电信运营商数据的风控评分模式取得了很好的阶段性成果

鼎数公司仅使用电信数据,通过大数据分析的技术手段,预测个人的信贷坏账风险,发现电信数据与信贷结果有很强的关联性,可以直接作为信审决策标准,也可以与银行的风控报告信息、预审信息等同时使用。

实践证明电信数据在风控上大有可为。基本流程(图2)。

以下使用的电信数据,均为联通的电信数据(图3)。

图3 联通电信数据

通过电信数据(图3),延伸了变量(图4)。

根据延伸的变量,进行单变量分析,下面举例说明:

变量之一,申请前3个月是否都使用了宽带,如是,则坏账可能性较低(表3)。

变量之二,手机是否以个人身份证登记,如是,则坏账可能性较低(表4)。

变量之三,被叫电话中,被叫固话的比例≤10%,如是,则坏账可能性较高(表5)。

变量之四,与申请人最紧密的上海电信客户中(相当于最紧密的30%联系人),平均每个月短信发送条数(过去3个月)是否超过59条,如是,则坏账可能性较高(表6)。

最终建立如下形式的模型公式:

申请人未来一年坏账可能性

= 1/(1+exp(-( -3.2245+ 0.2517 * 男性- 0.0108 * 最近三个月使用过宽带- 0.0568 * 被叫固话比例<10%+ 0.1702 * 紧密联系人月使用短信条数>59条- 0.2263 * 以身份证登记

+ ……      )))

模型在检验数据集效果,根据坏账预测值(表7)从大到小排列,然后均分为10 等分。

表7  坏账预测值

模型效果好过使用银行本省的坏账风险预测模型,KS值接近35%,模型C值75%。

电信数据建立的风控模型所使用的数据挖掘技术。

一是“异网客户属性预测”系统。只需一家电信运营商客户的数据,就基本可以覆盖整个城市的居民。采用鼎数公司独创的“异网客户属性预测”系统,根据“物以类聚、人以群分”的原理来预测异网用户的属性。

用户趋向于跟自己有相同爱好、年龄相仿的人结交朋友,因此社交圈内本网用户的属性、行为在一定程度上反应了异网用户的属性和行为。但是,社交圈内本网用户与异网用户之间的亲密程度是不一样的,关系亲密的好友之间的联系相对于关系一般朋友之间的联系更能反映异网用户的属性、行为。

通过分析社交网络中的某个用户,观测他与不同的电话对像的联系频次、时长、时段等信息,了解他与不同电话对象的关系。根据关系深浅来分配权重,生成“相互之间的影响度”,从而将该用户的电话对象的部分属性具体化。如表8所示:

表8  异网用户属性预测技术

二是聚类分析。将数据分类到不同的类或簇这样的一个过程,所以同一簇中的对象有很大的相似性,而不同簇间的对象有很大的差异性。聚类规则如下:

第一,观测值是否存在缺失值?

第二,若第一结果为否,到最近簇的距离是否比簇间最短距离大?

第三,若第二为否,到所有簇的距离是否比最近簇到所有簇的最小距离大?

第四,若第二或第三成立,则用观测值替代最近簇,依此下去,直到最后所有的观测值都归为一类为止。

按照常理:在工作日的工作时间联系较多的可能是同事或者客户;在工作日的下班时间通话较多的可能是情侣或夫妻;在周末的休息时间通话较多的可能是朋友、家人。因此,通过以上聚类方法,依照上述的七个变量,将不同特征的用户区分出来,最终定义为五类,即最紧密、紧密、比较紧密、普通和最一般,每一类都赋予不同的权重。

社交圈内的本网用户与异网用户之间的亲密程度是不一样的,关系亲密好友之间的联系相对于关系一般朋友之间的联系更能反映异网用户的属性、行为,不同的亲密关系将在不同程度上反映异网用户的属性。

决策树分析。决策树不仅可以帮助人们理解问题,还可以帮助人们解决问题。决策树是一种通过图示罗列解题的有关步骤以及各步骤发生的条件与结果的一种方法。决策树可以生成能理解的规则、处理连续和种类字段,同时决策树可以清晰的显示哪些字段比较重要。

逻辑回归。逻辑回归与多元线性回归有很多相同之处,最大的区别就在于他们的因变量不同,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。这一家族中的模型形式上都差不多,不同的是因变量的不同。若因变量是连续性变量,建立多元线性回归模型,若因变量是二项分布,则建立逻辑回归模型,逻辑回归模型中的因变量可以是二分类的,也可以是多分类的,目前二分类的更为常用。通过对客户的电信数据建立逻辑回归模型,最终模型给出的分数可以作为判定客户个人风险的一个重要标准。

针对银行、互联网金融风控管理系统的作用和不足,提出电信数据对风控体系的作用,仅用电信数据建立风控评分卡模型,模型效果KS值45%以上。提出的创新的基于电信数据建立的风控模型,采用嵌入式系统进行风险评分查询,先天上确保了电信数据的安全使用。

在运用电信数据建立风控评分卡模型时所使用的数据挖掘技术包括构建“异网客户属性预测”系统,根据“物以类聚、人以群分”的原理可以来预测异网用户的属性,通过聚类分析和决策树分析来判断不同人群的分类和找出关键性字段,最后应用逻辑回归原理,通过对客户的电信数据建立逻辑回归模型来判定个人风险评分,最终模型效果好过使用银行自身建立的坏账风险预测模型, 目前有10多家互联网金融公司使用,效果显著。

本文作者系上海鼎数信息技术有限公司总经理 范若愚

由移动支付网、北京移动金融产业联盟联合主办的2017中国移动金融发展大会将于4月20-21日在北京举行,21日上午的“金融风控分论坛”将围绕大数据、征信、身份认证等,探讨移动金融风控关键点。

大会详情:http://www.mpaypass.com.cn/MFDC2017/

本文转载目的在于知识分享,版权归原作者和原刊所有。如有侵权,请及时联系我们删除。

展开全文
相关阅读
资讯查询取消