银行隐私计算平台建设思考及技术选型建议-移动支付网

银行隐私计算平台建设思考及技术选型建议

移动支付网刘伟2021/10/13 10:32:19

随着数字经济的深入发展，数据作为关键生产要素的作用逐渐凸显；同时，《数据安全法》和《个人信息保护法》等法律法规的颁布实施，对数据安全和隐私保护也提出更高要求。隐私计算是保护数据特定使用权跨界流通应用的新兴技术，可以在密文状态下完成规则及模型的计算，保护数据和隐私的安全。商业银行一直是信息化的引领者，同时也是数据密集型行业，目前隐私计算技术在商业银行的落地应用趋势已越来越明确。

商业银行数据流通的需求及特点

对商业银行来说，数据的作用集中体现在业务风控（生产过程，包括交易风控和信贷风控）和精准营销（流通过程）。目前银行数据跨界应用存在以下特点：

1、依赖外部数据进行业务风控和精准营销

银行业务依赖大量的内外部数据，自有内部数据有很高的金融价值属性，并引入如运营商、司法、税务等外部数据提升风控和营销的效果。2021年7月央行要求实现个人信息“断直连”，应考虑通过征信公司间接接入数据源。

银行数据向外流通的场景较为有限，主要流向关联方或服务供应商。应考虑在不影响业务的前提下使用隐私计算技术保护输出的数据。

2、算法和模型要满足安全性和可解释性的要求

银行使用数据主要用于自动化决策，自动化决策需要模型的支持，模型分为人工定义模型和机器学习模型。法律法规（《个人信息保护法》明确要求自动化决策结果对个人权益有重大影响时要能说明清楚原因）、监管机构、消费者权益保护及自身风控等对算法和模型的安全性及可解释性提出要求。2021年3月央行发布并实施《人工智能算法金融应用评价规范》，要求应用AI算法需满足安全性和可解释性的要求。

3、多数据源应用要求标准规范及产品技术上的互联互通

数据跨界天然要求互联互通，银行多数据源的特点导致银行对标准规范和产品技术互联互通的诉求更为强烈，整体互通包括节点互通、管理互通和算法互通。隐私计算由于技术难度及场景适应性等原因，互联互通的难度和节奏都不一样，应该分开考虑，区别对待。

隐私计算的技术路线及发展趋势

根据现有市场分类，隐私计算主要分为基于密码学的多方安全计算（MPC）、基于可信硬件（TEE）的机密计算（CC）和联邦学习（FL）三个技术方向。基于可信硬件的机密计算方案需要依赖国外的硬件设备，存在重大安全隐患，有悖于“信创”的国家网络安全战略，因此在国内属于非主流方向；联邦学习的主要目标是融合MPC、TEE、AI及传统密码技术，训练更好的AI模型，为了提高效率，部分方案安全证明不严格，受到一定质疑；多方安全计算有严格的理论基础且图灵完备，有广泛的应用空间，执行性能成为诟病的主要因素。

隐私计算是计算理论、信息论、密码学等学科的综合应用，相关技术不断快速发展变化，具体来说有以下现象和发展趋势：

1、多方安全计算理论和技术不断发展

多方安全计算适应各种计算任务。近年来，秘密分享、混淆电路等通用技术以及隐私交集、匿踪查询等专用技术的优化算法和加速方案不断迭代，满足多种场景的商用需求。同时恶意模型、隐私度量、可验证计算等新技术在快速发展，未来更好支持数据要素跨界流通，实现最小化信息损耗，最大化数据价值。

2、开源的联邦学习项目逐步成熟

机器学习的目标函数（损失函数、梯度算法）比多方安全计算（任意计算）简单，但计算过程和轮次复杂。联邦学习解决机器学习的隐私保护问题，分为横向、纵向和迁移，横向是设备联邦，纵向是机构联邦，银行应用以纵向联邦为主。联邦学习开源框架已比较成熟并逐渐形成主流，相关技术门槛会逐渐降低，大型商业银行应考虑在成熟框架上自研，从联合开发起步，长期支撑业务发展。

3、国产TEE技术成熟尚需时日

TEE技术虽然在性能上有优势，但由于成熟产品以国外厂商为主，国内TEE技术还在发展过程中，需持续跟进观察。

商业银行隐私计算平台建设建议

近年来商业银行开始隐私计算技术的布局和研究，部分银行着手试验性的隐私计算平台建设，关注重点各不相同。银行隐私计算技术布局建议如下：

1、从实际应用场景出发，兼顾多方安全计算和联邦学习并快速落地

隐私计算技术在不断发展过程中，希望一个技术、一个平台、一劳永逸解决所有问题是不现实的。多方安全计算通用性更好，而联邦学习处理非结构化的数据更有效，银行的重点是业务，应坚持实际业务场景出发，多方安全计算和联邦学习并重，更灵活的适应各种业务场景。

2、选择合适联邦学习框架，合作开发并逐步开始自研和互联互通建设

联邦学习开源框架已比较成熟，银行可根据自身业务需求选择合适的框架，跟合作伙伴联合开发快速落地，并逐步配备相关资源自研。伴随联邦学习框架集中度不断提高，互联互通的难度会越来越低。

3、与技术实力强的厂商合作，不断应用多方安全计算及相关技术

多方安全计算的技术壁垒高，技术纵深大，一些关键的技术，如全同态密码、恶意模型、可验证计算、不可区分混淆等技术均在快速发展中，银行应选择在技术实力强的厂商长期深度合作。

4、考虑外部数据源接入的效率和维护成本

商业银行拥有强大的科技和运维团队，外部数据源不一定具备同等能力，如何实现快速接入，如何降低开发运维成本是需要重点考虑的问题。银行自身隐私计算平台可考虑集中建设，数量众多的外部数据源应采用互联互通、方便维护的硬件一体化产品，降低开发、部署、接入和运维难度。

商业银行隐私计算技术选型建议

选择合适的合作伙伴是银行隐私计算技术落地的关键点之一。隐私计算作为密码安全技术且面临各种各样的应用场景，对密码、安全以及业务要有深入理解，选择有金融行业服务经验的厂商和团队至关重要。具体来说，可考虑以下要点来甄选厂商：

1、计算框架、整体安全及选型测试方案

隐私计算产品首先是一个安全产品，不能忽视整体安全功能，包括密钥管理、访问控制、接入鉴权、通讯安全、系统安全等。应优先选择具有长期的银行相关安全产品服务经验的合作伙伴，厂商应具备质量体系、信息安全管理体系等安全认证，产品应经过公安、国测等权威第三方安全检测机构测试和认证。

隐私计算性能开销包括计算、通讯和交互轮次开销，通常提及计算和通讯开销，对交互轮次开销关注较少。前者可通过增加计算资源和通讯带宽等缓解，交互轮次的开销是不可解的。银行风控等业务有实时性响应要求，并且数据源多通过广域网连接，交互轮次对响应时间影响更加突出，在局域网测试表现很好的方案和产品不一定实际可用。因此选型测试方案和测试环境应充分考虑上述因素。

2、基本隐私算子原理及选型要点

由于混淆电路、秘密分享、同态密码等通用隐私计算技术是从电路层面解决问题，因此基本隐私算子主要包括加法（比特即异或门）、乘法（比特即与门）和比较（相当于电路中高低电平状态判断），对基本算子要考虑：

①算法原理安全论证：安全性有问题，性能再好也是没有意义的；

②算子安全灵活组合：单个算子是无法保护隐私信息；算子安全组合（即由电路门组合成计算电路）可达到除结果外不泄露中间信息的目标。基本算子输出支持密文状态（分片或加密）才能实现安全组合；算子组合有三种结构：顺序、选择和循环，应有安全合理的方案支持上述组合；

③正确性、精度和性能：选型需关注计算结果正确性和计算精度，不同精度对性能影响是不一样的。

3、专用隐私算子原理及选型要点

专用隐私算子主要包括隐私交集、匿踪查询和不经意传输。每种专用算子也都有多种不同的理论及算法，依赖不同计算环境，测试注意事项及要点具体如下：

①隐私交集（PSI）：隐私交集实现包括Hash、DH、OT等方案，可设定多种场景，在安全性和正确性的基础上，比较性能（包括CPU、内存、带宽和交互轮次）和灵活性（是否支持多种输出方式和算子组合）；

②匿踪查询（PIR）：匿踪查询分为保护数据方和不保护数据方两类方案，应考虑安全性、是否预处理、是否分桶等因素，设计不同测试场景和用例；

③不经意传输（OT）：不经意传输是高级算子的基础，也有多种不同理论和算法，设定2选1、多选1等用例，在安全性论证基础上，比较性能和灵活性。

4、联邦学习算法原理及选型要点

联邦学习需要考虑训练阶段、模型类别、纵向横向等支持，互联互通也是重要关注点。相关测试注意事项及要点具体如下：

①算法原理论证：安全基础不同，功能、性能不具有可比性，应该对算法原理进行论证和验证；

②纵向联邦和横向联邦：横向联邦相对容易实现，但银行应用场景更多是纵向，应重点关注纵向联邦；

③特征工程：样本对齐、特征筛选等需要隐私保护，因此也应关注；

④模型支持：目前常用模型有回归类模型、决策树模型、神经网络模型等，隐私保护下，回归类和决策树可以商用，深度神经网络性能一般，建议目前重点考虑纵向回归类和纵向决策树模型；

⑤互联互通：国内FATE影响力比较大，可以考虑与FATE的互联互通测试。

5、专家规则算法原理及选型要点

银行业务对专家规则的依赖比较高，专家规则可能是多种多样的，需要多方安全计算支持，同时风控类业务对实时响应的要求又比较高，既需要考虑各种规则的隐私度量，又需要考虑如何根据目标函数、数据特点、部署环境、网络环境和响应时间要求等采用算子组合来实现，还需要考虑算子组合的安全性及如何灵活组合以快速支持业务开发，测试注意事项及要点具体如下：

①隐私度量预算：数据方和使用方都会担心自身的模型及数据泄露，而隐私计算的理论决定了必然有隐私损耗，因此计算双方需要做好隐私预算，同时在模型设计、计算中进行隐私度量和预算控制，防范恶意合作方窃取隐私数据；

②隐私规则引擎：应支持图形化的、灵活简洁的隐私专家规则设计，设计过程可展示度量信息损耗、度量计算、通讯开销和响应时间。

6、预研类技术前瞻布局

多方安全计算和联邦学习技术在快速发展变化中，比如新一代的全同态密码及算法加速、恶意模型、可验证计算、属性加密和访问控制、函数加密、不可区分混淆，这些技术将是隐私计算下一步的发展方向，也将进一步推动数据安全和隐私保护的发展。银行应该选择在上述技术上有考虑有布局的合作伙伴，以保持银行在隐私计算和数据流通上的领先优势。

作者简介：刘伟，中科院软件所软件与理论专业博士，从事密码和信息安全工作二十余年，专注隐私保护和数据安全方向，熟悉银行金融科技，对智能风控、大数据反欺诈等有深刻的理解和丰富的经验。


展开全文