北京银行宗勇涛：大数据风控护航商业银行高质量发展-移动支付网

北京银行宗勇涛：大数据风控护航商业银行高质量发展

2018/8/14 10:12:26

近年来，随着移动互联网的迅速崛起，互联网金融呈现出快速发展的趋势，特别是银行业务线上化丰富了银行的产品和业务种类，大大提升了渠道便利性和客户体验，银行与互联网的深度融合、共同发展，无疑推动了我国社会经济的发展。然而，“互联网+金融”模式的出现，时刻考验着银行的管理和风险防控能力，与“互联网+金融”相伴而生的欺诈风险，为银行的稳健发展带来巨大隐患，据权威机构统计，我国互联网各类网贷平台平均每100笔拒贷案件中就有16起涉及不同程度的蓄意造假或欺诈行为，互联网金融风险防控成为各商业银行亟待解决的关键问题。

一、互联网金融欺诈风险防控面临的挑战

为了更好应对欺诈风险，国内银行开始研究风控手段，加强不同产品条线、不同业务部门之间的分工协作。然而，从总体情况来看，国内银行的欺诈风险管理工作仍处于初级阶段，在移动互联网高速发展的今天，商业银行传统的风险防控手段难以满足需要，普遍呈现“算不快、识不准、跟不上”的特点，主要面临以下几方面的挑战。

1.数据不全面

由于金融机构自身信息系统中产生的数据大都是标准化、结构化的，并不能完整地衡量交易对象的信用情况和特征行为，并且可能缺失很多关键信息，除了常用的年龄、收入、学历、行业等基础信息外，一些和风控相关的其他数据信息银行很难获取。尤其在国内的信用体系还不完备的情况下，很大一部分长尾客户是“信用白户”，存在信息不对称的情况。

2.身份识别不准确

身份识别是交易欺诈防控的基础，往往隐藏着欺诈行为的重要特征。但由于移动互联网的发展，IP地址多变且重复率高，基于IP的设备识别召回率和精准度都达不到要求。由于苹果和谷歌在智能手机上的隐私保护，以及移动用户更多倾向于使用原生应用，基于cookie的设备识别在移动互联网时代日趋捉襟见肘。

3.信息获取及处理不及时

在交易行为的监控中，是否能实时或者准实时的识别风险至关重要。传统的OLAP数据分析往往是滞后于交易发生的，难以实现T+0的风险分析。数据具有时间价值，滞后的数据会影响到评估结果，不能实时反映风险变化情况，实时的数据录入和动态信用风险评估对银行是一个巨大的挑战。

4.异常行为难以定义

欺诈风险是互联网业务防控的重点，能否第一时间识别出欺诈行为并且进行有效防控至关重要。由于诈骗的模式变化日新月异，作案的手段十分隐蔽，不能简单地将每种不同的欺诈当作完全独立的类型，也无法将欺诈识别定义为一个非黑即白的二分类问题。在真实情况下，往往多种诈骗行为数据混合在一起，让欺诈行为更加难以辨别。

二、构建面向互联网金融的大数据风控体系

为了应对以上挑战，北京银行依托多项大数据技术构建面向互联网金融业务的风险防控体系(如图1所示)，该体系提供计算能力和规则调动功能，为如互联网金融业务提供覆盖贷前、贷中、贷后的全方位反欺诈及风险防控能力。

依托大数据平台，北京银行通过自主架构设计，在“算法、数据、算力”不同层面持续提升，不断完善大数据风控体系，逐步形成三大核心能力。

1.利用机器学习技术打造核心模型算法

面对形态各异的互联网欺诈行为，仅仅依靠专家经验与业务规则完成的语义分析，是无法有效识别模式变异后的欺诈行为的，需要依靠机器学习算法模型的预测能力来解决突发的新型欺诈识别问题。由于超过九成的情况是历史数据没有明确标签，同时过度学习会造成模型针对历史数据出现过拟合的情况，因此各类成熟的监督学习并不能有效地解决这类问题，需要应用非监督的线上学习，对诈骗行为进行有效甄别。

通过交易欺诈识别模型，有效识别业务异常行为，研判欺诈交易，从欺诈主体和欺诈对象两个方面分别建模。

在欺诈主体方面，建立基于特征的账户规则库，从静态特征和动态特征两方面建立风险评估体系，对每一条特征设计若干相应的评分函数。通过累加各个特征的评分，最终得到客户或者账户的综合评分，从而判定欺诈风险。

在欺诈对象方面，如图2所示，采用机器学习中的隐马尔科夫模型为每个客户建立账户级与客户级用户画像，对客户的每一笔交易进行欺诈风险评估。通过将用户历史交易行为作为基于马尔科夫隐状态的时序随机过程，进行观测值建模。使用聚类方法得出用户行为习惯，然后建立用户隐状态初始马尔科夫概率转移矩阵，定义初始分布，之后使用前向—后向算法与Baum-Welch算法学习模型参数，完成模型训练。并通过模型的自学习能力，不断提高模型命中率。

2.构建内联外通的数据生态

对于传统的商业银行，数据架构底层的源头数据，大多都是业务发生时积累的数据，例如客户基础信息、交易流水、业务流程数据等，对于一个客户尤其是新客户来说，开户过程中需要的基础信息全部由客户本人提供，很多传统银行中的贷款类业务，相关资质证明材料的核对依然通过客户经理下户的方式完成，不仅成本高、效率低，而且不能保证效果，无法准确判断客户身份的真实性与有效性。同时，如果客户之前没有在任何金融机构办理过贷款业务，缺失人行征信报告的话，用传统方式单纯审批客户提供的材料，是无法全面准确判断客户征信水平的。仅使用行内数据无法判断客户是否在他行有涉诉、失信、老赖等不良记录。因此，互联网时代下，对于银行来说，第一道风控防线就是打破行内外信息不对称的壁垒。

如图3所示，北京银行通过引入外部数据，快速、准确地判断客户，尤其是线上业务中客户身份与办理贷款业务需求的真实性以及全面的征信水平。

北京银行通过搭建外部数据平台，打通内外部数据，实现外部信息数据采集、存储、加工一站式整合，为行内业务用户和各类管理应用提供外部数据的查询和服务接口，并与行内数据结合，建立客户的全景视图，真实还原客户信息全貌，让数据资源价值成倍增长，共同为开展各项信贷、评审和业务风控提供重要决策依据。

3.信息实时采集和动态计算

商业银行原有的风险控制机制是参考历史数据和专家经验。但是在互联网金融业务中，风险事件的联动效应已经变大，一个小的风险事件可能在很短的时间内产生巨大的影响。相比传统线下业务，互联网金融业务具有实时性高的特性。为了应对这种变化，北京银行从采集和处理两方面建立起实时大数据风控体系。

在实时采集方面，一是引入设备指纹，通过在智能终端上嵌入SDK的方式，拓展设备信息维度,实现交易行为的关联分析。当业务事件发生时，通过SDK向终端风险识别平台上报业务事件，由终端风险平台生成该设备的设备指纹ID，并发送给行内的风控系统。由于终端风险平台会对同一设备上发生的业务事件生成相同的设备指纹ID，因此，风控系统可以根据设备指纹ID将业务事件按设备进行关联，实现金融交易全生命周期的监控，全面应用账户安全、支付安全、营销安全的各个环节。

二是提出了基于网络流量的非侵入式数据采集的解决方案，在降低各渠道业务改造量基础上，更快、更好地实现全渠道交易数据的实时采集，通过专用嵌入式探针设备在网络方面进行广域网及局域网指定链路流量的采集，采集各种格式的交易原始信息，将交易的请求和返回撮合成一条记录，并将解析后的报文实时通过kafka队列传输给风控平台进行实时分析。

在动态处理方面，利用大数据平台的实时处理能力,建立实时风险管理视图，借助于全面多维度的数据、自我学习能力的风控模型、实时计算结果、坏种子数据，全面提升量化风险评估能力。实现了全渠道联机交易得无缝对接，基于T+0架构全面满足业务场景化服务需求。

三、面向互联网金融业务的大数据风控体系的建设效益

依托大数据风控体系，北京银行已开展小企业、信用卡、网贷等各类线上业务，初步形成全行一体化的风控数据采集、识别、处置能力核心，在身份欺诈、交易欺诈、信用欺诈及风险预警等领域发挥重要价值。

在身份欺诈风险防控方面：通过信用卡线上审批、网贷申请等业务上支持实时身份欺诈风险核验，对申请人、联系人的手机实名制、在网状态、在网时长等信息进行实时核验。

在交易欺诈风险防控方面：实现了包含非法集资、银行卡盗刷在内的多个主要识别模型。构建出全行资金流向网络，网络节点规模达到490万个。不断优化银行卡盗刷识别模型，通过对历史交易流水数据对盗刷模型进行训练，实现了已知盗刷业务的全部命中，与案件防控流程实现全面对接，建立集“查、控、打”能力一体化的防控体系。

在信用欺诈风险防控方面：每日批量监测全行小企业客户的风险及负面信息，涉及失信被执行人、限制出境名单、行政处罚等不同类型的风险数据明细；支持小企业普税贷模型初筛模型、银税业务信用审批建设，嵌入贷前风控、贷中审批、贷后管控流程和相关业务应用。

在风险预警方面：满足监管要求，实现了与最高人民检察院、人民银行、银保监会、公安部、国家安全部、北京市公安局的对接。国家有权机关的司法查询、冻结、解冻等大量线下人工操作业务转为线上系统自动执行。同时，协助人民银行对涉电信网络违法犯罪高危人员及公司进行风险管控，对涉嫌可疑交易行为或违法犯罪的账户以及涉嫌伪冒开卡的账户采取及时布控措施。

北京银行综合运用大数据、机器学习、设备指纹、数据感知等金融科技手段，提出一种面向互联网金融业务的大数据风控解决方案，通过对多项关键技术进行研究，为系统化、实时化、数据化防控业务风险，提供了一种覆盖从事前预警、事中监控、处置，到事后挖掘分析的全生命周期闭环应用模式，并在实际业务应用中取得了良好效果，为商业银行利用大数据风控技术开展互联网金融业务探索出一条可行路径。

（本文作者系北京银行软件开发部副总经理）

本文转载目的在于知识分享，版权归原作者和原刊所有。如有侵权，请及时联系我们删除。


展开全文