上海行邑张克：移动支付反欺诈问题思考-移动支付网

上海行邑张克：移动支付反欺诈问题思考

移动支付网 2017/1/11 17:47:46

2017年1月11日，《2017中国移动支付年会》在北京召开，上海行邑信息科技有限公司是（Maxent猛犸反欺诈）CEO、创始人张克与会并发表演讲，分享了在移动支付当中一些欺诈的情况，以及反欺诈所需要注意的问题。

以下是演讲原文：

张克：今天主要想和大家交流一下在业务安全里面，我们怎么样利用人工智能的方法做得更好。大家核心关注的问题，企业在这方面的投入肯定也很多，但是效果现在不太好说，这里面有两个主要的原因，第一个原因是因为像刚才袁总所说的，仅仅在终端的安全检测上，就有那么多的标准，那么多的内容，实际上终端安全检测是我们的业务安全中的一部分，而且是一小部分而已，所以在业务安全里面我们所要面临的问题，实际上它的复杂度非常的高。另外还有一点业务安全和业务直接相关，业务模式在不断的变化，整个业务安全所面临的是一个非常动态变化的环境，复杂度加上高速的变化造成了我们也会面临的问题非常多，我们需要考虑的角度也非常多，所以我今天主要就从复杂性和多变快速变化两个角度来看看。

我们把反欺诈这两个角度所做的一些思考以及实际做的一些工作。实际在支付行业里面，我们会面临很多风险，表上面大家可以看到很多风险，核心的风险在业务层面有可能是合规第一，支付业务进行过程中，我们要做到合规。第二，是我们会面临这些欺诈的风险，这两个风险的管理实际上会有很多的知识，在这个欺诈风险管理里面，我们可以把它粗略的分成三大块，第一是做检测，所谓的检测是说我们并不知道新的欺诈模式或者新的欺诈者，过去他是什么样的行为模式？但是我们要用我们的技术手段把它检测出来。我们能够精确描述出来的模式变成规则去做防御，防止这些相同的欺诈未来再次发生，这样的会形成一个闭环，我们的整体的反欺诈的业务就是在不断的循环，那么在这个里面，其实大家可以看到在，在这里面就有已经有很多需要考虑的问题，第一，事前、事中、事后我们分别要做什么？

事中，是指支付交易发生的时候，我们需要做哪些检测？在交易发生之前，我们可以做什么样的工作？之后我们又能做什么分析？让检测更加完整，也会有人工的方法，有机器的方法，有在线实时地做决策的，也有离线的分析去辅助，各种各样的机制，其次发现了这些欺诈以后，我们的响应策略是什么？所以这里面大家可以看到要考虑的因素非常的复杂。实际上是欺诈防御，我们所谓的欺诈防御现在行业里面的常用方法是什么？刚才说了所谓的防御是，我们已经知道这种欺诈模式以及我们知道了曾经做过欺诈的，怎么样防止它再次来在我们这儿成功的做欺诈？那么很简单，黑名单规则做过滤，如果这些过滤以后还会有一些可疑分子，我们会把它放到人工审核里面去，最终会产生一个结论，实际上大家可以看到缺失了一个很重要的一环欺诈的检测。

我们所说的七大检测如果说是一个理想的情况下，应该有哪些特性？第一，应该是实时在线的，不应该是事后的。如果事后的话，就会变成交易已经发生了，我们在去做数据分析，试图从这些数据里面去挖掘出将来可用的东西，但是这没有办法做到，交易发生时，我们如何再把欺诈交易实施的阻止掉，另外还有一个就是，应该是一个多层级的，因为现在我们所面对的黑产或者欺诈者实际上是非常多的，往往单一层级的检测，比如说我们集中在终端的检测或者集中在通信层面的检测，或者集中在个体身份的检测，你是一个单层级的，能够绕过你的单一层级的检测，能够成功地实施欺诈，另外还要是跨渠道的，因为我们现在所说的交易或者支付，大多数都是咱们都在谈的是线上支付，线上支付可能通过一个H5的页面来做的支付，可能通过咱们某一个S D K应用里面支付，一个欺诈者在做欺诈的时候，可能在不同的渠道里面都会做欺诈，如果我们能够把多渠道的行为抓在一起做分析的话，得出来的结论一定是远远强过我们只做单一渠道的分析，所以应该是个多层及跨渠道的，另外还有就是智能化和自动化，所谓智能化和智能化和自动化，实际上是为了应对。

第二个特点，多变性，一旦它变化很快的话，你如果没有办法做到自动化智能化就意味着你跟不上他的变化，这个后面再说，我们先说所谓多层跨渠道，反欺诈里面的复杂性问题。这是比较完善的多层级的智能化的反欺诈解决方案的设想，首先最下面大家可以看到，我们在交易以后都应该做不同的事情，在交易前做的事情主要是在左上角这一块。我们的用户在做一个支付交易之前，他实际上会在各个不同的渠道，不同的网站上面都会有他的行为，这些行为实际上是非常宝贵的数据，我们把他的行为记录下来以后去做他的模式的学习以及分析，为未来他真正开始做交易的时候，在这个交易点上有没有异常的行为，可以产生很多的输入。

下面这一层实际上也是在交易过程中，交易中的时候我们要去做的分析，另外还有这一块就是比如说身份信息、通讯信息是否保持一致，是不是真正做交易的这些的分析和行为模式的分析，实际上都给我们自动的异常检测提供了输入，所谓的自动的异常检测这里面有一个基本的假设，如果一个人的交易行为在某一些数据维度上发生了异常或者说发生异常的数据，维度数量越高，背后所隐藏的风险就越高，基于这样一个技术假设，我们会做很多不同数据维度的异常检测自动的，自主地去做异常检测，把这些异常检测的结果输入给风险评分，风险评分会给交易做一个打分。这一系列的分析实际上是相辅相成并不是互斥的，这两个应该是互补的，在这一块就是我们可以看到，它的结果也可以给传统专家规则或者人工审核作为一个输入。

事后，我们要做什么？其实大家很多都是在做的，当我们确认了欺诈以后，甚至我们没有确认其他的时候，我们会有业务的专家或者数据分析的专家来做数据离线分析，把这些结果输出给我们线上的模型或者线上的规则，这样子会形成非常复杂完整的多层级，智能化其他检测，这样的一个完整的方案。这里面大家可以看到，实际上很难有一家公司把这里面所有事情全部做掉，因为它牵扯的面太广了，就像刚才T1本身，它就有很多的协议，可能一家公司专注做T1的公司，这件事情做掉就已经很不容易，所以对于支付企业来说也好或者对于金融企业来说也好，实际上选择更多的是说从外部挑选每一块做得更好的提升到自己大的一个平台上面来。

我们再看看下面一个，就说我们刚才说欺诈和与反欺诈，这个对抗里面有一个很重要的特点，变化非常的快。一个是业务模式变化快，一个是其他手法变化快。我们看所谓变化快，对于我们的专家规则会产生什么样的影响？我们假设它是某一个支付渠道，每天所产生的支付交易的次数，如果我们说要做一些异常的分析，比如说我们说H5页面嵌入了某一个APP里面，APP它所产生的交易次数，超过一个月时候，我们认为这里面可能有风险或者有异常，这时候最简单的专家规则，有一条简单的规则来做的话，就是画一根线，超过这根线以上的，我们就要去关注人工审核也好或者用什么其他的手段也好，我们要去检查，但是，这里面实际上大家可以看到，随着时间的推移会发生什么？有可能我的业务发展，这时候你这条规则怎么办？唯一的选择是说我们根据业务的发展，再去制定新的规则，把这条线往上移，但是这条线往上以仍然会有问题，业务继续发展，你怎么办？你接着把线往上移，这样子话实际上如果是一条简单规则，你可以这么去做，但是真正在实施操作过程中，实际上会带来很大的运营的成本，所以用专家规则，在这个场景里面大家很容易就看到，就专家规则实际上忽略了数据会随着时间变化整体的趋势。

另外还有一点，就是说我们所看到的数据实际上很有可能是这样一个数据，实际上是有周期性的，在这个周期性里面，我们会忽略掉专家规则，在这条线上画一根线，不管这根线画在什么地方大家都会看到，实际上很有可能会忽略掉时间周期上的变化，比如说下午3点到5点之间所产生的交易量必定会超过早上3点到5点之间的交易量，我们的运营人员要求画这根线，怎么画？单一的简单规则会变成很多复杂的规则，这些复杂的规则是否能够适应数据的变化也是一个问题。

还有去处理这里面统计的噪音，所谓的统计噪音没有办法处理，是什么含义？比如说我画一根线，说100次以上，101次它就是异常，140就正常，实际就是统计上的问题，这是没有道理的，在这个使用简单的专家规则，实际上没有办法解决这个问题。所以我们所做的不仅仅我们这么做了，有很多公司也这么做可以用这种智能化的机器学习的方法来做异常检测，大家可以实际上看到，在异常检测里面，这根曲线我们刚才看的上一页是3根曲线的叠加。第一根曲线是整体的趋势，根据时间有一个整体的趋势，是一个水平不变的上下波动。第二个是周期效应，在这个时间上，会有一个不同的周期效应。第三，我们刚才所说的统计噪声。

我们经常会用时间序列模型，时间序列模型是有时间周期性，根据时间明显的趋势变化这样的数据，是有一个很好的处理的结果。那么我们根据这又使用时间序列模型去做了一个预测，红线是所做的预测，绿线是实际上的。预测和实际上匹配之间的差异度是黑线，所以大家可以看到我们的预测和实际的结果差异度，实际上是在零附近上下在波动的，预测的结果还是不错的。

在这里面实际上我们做的一件事情，曲线上可能不能够明显的看出来，但实际上我们做的事情是说什么？用时间序列模型自动地生成了规则及所谓的规则，比如说一个3个三条规则，在一个小时之内产生了140交易就是正常的，产生了100到154交易就是轻微的异常，产生154到240交易非常的异常，这个三条规则实际上是根据我们的数据会出来不同的结果，所以这规则是打双引号的规则，并不是真正的规则，而是模型，描述了一些潜在的很复杂的规则集合。

智能化的异常检测里面，刚才所说的时间序列模型，实际上是有它的局限性的。比如说我们刚才说，我们在做一个渠道，他在过去一天之内所产生的交易数量异常检测的时候，实际上我们所说的是一个整体的数据分布。首先，它的模型和右侧是不一样的地儿，因为它的数据非常的稀疏，我们做了一件事情，就是把传统的时间序列模型增加了一个空间维度，这样做了以后，实际上我们可以把时间序列模型很好地匹配到左侧，数据量非常少，同时它的数据模型和总体数据模型不一致的场景，实际上是自动的为这些细分的空间去做建国，我得出的结论，在左侧上面这个图，红色的这些曲线实际上都是每一个时间，渠道所发生的交易的次数，如果从视觉上来看的话，我们可以明显看到有几个毛刺出现。实际上就是说，我们把前面的时间序列模型，自动生成规则那个模型加入了空间的维度之后，我们能够做到的事情是说产生了一个模型，自动生成规则的模型更上一层的模型，我们能够把它产生，就是说所有的自动化的分析，可以通过模型去达成，这是一个更大的一个突破。

总结一下，我们用机器学习。我们所谓的非监督式的机器学习，更多的是针对位置的风险，就是我们并不清楚，过去这种模式是否代表了一种我们已知的欺诈，我们在这个未知的环境里面去把位置的其他模式把它发现出来，监督是继续学习和专家规则，更多的针对的都是已知的其他模式，专家规则就是说在做业务过滤非监督的做这个风险的评估，所以在这里面，我们所做的机器学习不管在支付场景也好，在互联网金融场景也好，都有很多探索刚才所提到的，会自动生成产生规则的模型。实际上只是我们做得很小一块工作，这里面有局限，有更多的更深入的工作，把这里面的局限弥补掉的。谢谢。


展开全文