百行征信郭胜基:个人征信产品的开发方法、流程与合规考量
移动支付网 2020/7/7 10:18:10

7月2日晚,由北京金融科技产业联盟、移动支付网联合举办的《金融科技大讲堂》第七期开播。百行征信有限公司信息技术部副总经理郭胜基分享了在当前大数据、人工智能技术背景下,关于个人征信产品的开发方法、流程与合规考量。

关于数据、产品和开发

首先,数据是征信的基础,百行征信数据采集的数据类型可分为9大类。分别是传统授信机构、新型授信机构、国家机关、公用事业单位、信息主体、商业机构、大数据公司、第三方代理公司以及百行征信自身产品的服务数据、股东提供的数据等。

百行征信于2018年03月成立,是中国第一家、也是目前唯一一家获得人民银行个人征信业务经营许可的市场化公司,由中国互联网金融协会与芝麻信用、腾讯征信、前海征信、考拉征信、鹏元征信、中诚信征信、中智诚征信、华道征信等8家市场机构共同发起组建,它们也是目前百行征信的全部股东。

据了解,截至目前与百行征信签订数据共享的机构超过1000家。其收录的信息主体超8000万,信贷账户数超2亿,信贷相关记录数超20个亿。郭胜基表示,数据是百行征信提供定制化、差异化、个性化征信产品和服务的基础。

成立2年多时间里,百行征信于2019年1月发布首期3款产品;2019年12月推出反欺诈产品;2020年,推出包括个人消费者App、决策分析、定制服务等多个产品。

其中个人信息报告提供全景个人信用信息,可以用于一次性贷款、分期贷款、信用卡等业务;信息核验主要提供2、3、4要素等信息核验,主要针对打击冒名顶替诈骗等行为;特别关注名单主要描述有信用风险的人群,信息来源主要是最高法、各级地方政府的金融监管机构、法院的被执行人等,针对打击恶意逃废债;反欺诈产品分3个子产品,分别是反欺诈规则,反欺诈风险画像、反欺诈信用评分,针对多头借贷、团伙欺诈等;针对不同金融业务场景下的信用定量分析产品——行业定制分也正在研发,近期将推出。

据介绍,目前百行征信的10多款产品每天对外提供查询服务超过100万次,如此大量的服务离不开高效、安全、稳定的信息系统支持。

从技术上看,在百行征信整体系统架构的分层设计中,最底层是数据层。在数据层之上,为应用层和渠道层(图1)。层级分明的系统架构建设,使得百行征信技术架构更加灵活、可靠、适应行业需要。

(图1:百行征信系统架构)

而百行征信的数据架构来看,又可以分为3层:底层为数据源,中间是大数据中心,上层则是数据应用(图2)。数据源即数据交换系统,或者称数据的入口,中间层主要提供大数据T+0处理等,数据应用显然就是呈现在上述百行征信对外提供的产品中。

在总体性能上,百行征信总体对外提供查询服务的TPS(系统吞吐量)可达到1万笔以上,可以存储超过10亿个人征信、1亿企业征信数据,基本满足现已知的征信相关服务。

(图2:百行征信数据架构)

当然随着数据量的积累,服务的丰富,百行征信的数据架构也在不断演化。

“总体以自主开发为主,对通用型、非核心的部分,出于节省成本和提高时效性才考虑外部开发。”郭胜基表示,使用的工具主要是开源产品,基本都来自国内软件公司。对百行征信而言,自主可控是软件开发的原则之一。在过程中采用敏捷性迭代开发,这是其强调征信时效性所决定的。

合规考量:征信的三大底线

大数据、人工智能等新兴技术为征信业务带来了前所未有的提升,但同时也使其面临更严峻的风险,比如隐私信息保护、数据安全等等问题。不可否认,前期在大数据征信领域,存在多乱象。

作为集市场属性与社会属性一体的百行征信,如何在技术与风险二者中找到平衡至关重要。其合规考量的标准,在数据、征信等领域均具备参考价值。

郭胜基表示:“合规合法、个人隐私保护、信息安全三个底线,在百行征信产品开发中,是’一票否决’的评价标准。”

随着社会的发展,消费者越来越重视隐私保护,各项数据保护条例规范也相继出台,确保百行征信合规合法是其合规部门最大的任务。郭胜基戏称,百行征信合规部门属于“枪口对内”。比如一些有条件、有市场需求、技术可行的产品,但只要在合规合法上存疑,百行征信都会避免“擦边球”而放弃。另外在技术上,到目前为止百行征信都没有使用过“爬虫”。

隐私保护是第二个底线,从数据的采集到数据存储、数据应用,隐私保护要贯穿软件开发每个过程。在采集类型上,百行征信坚决不采集血型、病史、基因等信息;采集的渠道也应注意,不能与有合规风险的机构合作。郭胜基表示,曾有大数据公司向百行征信表示,可以向百行征信免费共享数据,但是百行征信基于合规考虑坚决放弃;存储上,百行征信拥有T4级(我国数据中心建设标准最高级)机房;信息传输则根据客户要求提供不同的加密算法,比如国密算法、对称性、非对称性加密等等。

信息安全是第三个底线,百行征信相关工作人员必须签订保密协议,对各项资源工具使用坚持最小必须原则,强调现场开发,对能够接触数据的人员进行定期审计等等。

但需要指出的是,现代征信强调大数据、人工智能的应用,数据堪称人工智能的血液,而当前人们对信息安全、个人隐私保护的要求愈发严格,各个机构主体对“信息不出门”原则的遵守越来越强。这样一来,矛盾凸显。如何解决这样矛盾,业内也提出了很多方式,比如联邦学习。百行征信也进行了相关调研、分析及应用。

为解决因数据安全要求,企业机构之间的数据无法互通,形成数据割裂、数据孤岛问题,谷歌于2016年率先提出的基于个人终端设备的联邦学习(Federated Learning)概念及相关算法框架。

但总体上,郭胜基认为目前的技术理论不够完备、许多配套工具不够成熟、行业生态不够健全,联邦学习还处于初步阶段。对于征信事业,百行征信提出了“一圈一链(生态圈和产业链)”行业愿景。

此外,郭胜基也在直播间回答了观众关心的市场问题,其他精彩内容欢迎关注直播回看:


展开全文
相关阅读
资讯查询取消