工商银行数据体系与技术平台建设实践-移动支付网

工商银行数据体系与技术平台建设实践

移动支付网工商银行金融科技研究院大数据人工智能实验室2023/4/26 11:50:33

近日，Teradata宣布根据其对中国当前和未来商业环境的慎重评估，将逐步结束在中国的直接运营，后续进入中国公司的关闭程序。Teradata在巅峰期曾占据中国数据仓库市场半壁以上的市场。在中国工商银行数字化平台发展历史上，Teradata数仓产品及其FS-LDM数据模型也曾留下了浓重的一笔。如今，中国工商银行早已完成的Teradata和FS-LDM模型的转型，全面拥抱开放生态的大数据体系。这些年，基于大数据体系，工行数字化平台蓬勃发展，已经全面支撑起全行各个领域的数据分析业务，成为工行数字化转型中的重要一环。近日，工行数据湖单一集群更是突破了2200个节点，成为金融同业最大的单体集群。于此契机，本文将介绍工行数字化平台中数据体系的转型过程与技术平台建设实践经验。

大数据作为数据基础设施，目标是为上层应用提供服务，加速应用的开发和创新。在上层用数过程中，对应用开发者最直观和核心的部分当属“数据体系”。数据体系在大数据平台中起着至关重要的作用，数据体系将直接影响上层用数的难易程度以及数据应用的广度和深度。本文将以数据体系为视角，阐述工行大数据领域中，用数需求驱动下的数据体系演进过程，以及随之带来的技术平台架构升级。

工行数据体系演变概述

工行随着业务需求的变化，为持续提升用数体验，大数据领域的数据体系建设也在不断发展。在应用需求的驱动下，工行跟随业界技术的发展，不断迭代演进和落地数据体系，以支撑金融业务快速发展。

工行的数据服务，起步于20多年前的数据集市时代。当时业界的OLAP刚刚兴起，工行按业务领域建设了风险、CRM等数据集市，满足上层的报表分析需求。当时没有系统化的数据体系，不同的集市间存在着公共数据的冗余。

阶段1：引入Teradata十大主题模型，构建工行范式模型数据体系

在传统互联网时代，数据主要为结构化数据。业务以传统金融业务为主，如存款、贷款、外汇、信用卡等。数据平台主要处理信息化系统中的结构化数据。相比原来PC时代，数据模型庞大，为针对数仓中的大量数据进行有效管理，工行引入Teradata十大主题模型，并构建了基于范式模型的数据体系，支撑了工行多年的业务发展。

阶段2：开创基于数据中台的数据体系

进入移动互联网时代后，数据类型变得更丰富，不仅有结构化数据，半、非结构化数据也不断增加。在金融业务方面，除传统金融行业外，移动支付、供应链金融、互联网理财等新型业务不断涌现。结合以Hadoop为代表的大数据技术生态的发展趋势，工行一直在研究，如何在数据模型上进行创新，以支撑行内的业务创新需要。最终，工行以数据中台建设为契机，基于“Hadoop技术栈（泛Hadoop，指开放生态大数据技术栈）”开创性的构建了全新的数据体系，实现了业务的敏捷发展。

阶段1：引入基于范式模型的数据体系

为加强数据沉淀、构建完整的数据视图，支撑上层集中式的报表和指标等服务，从整体视角对工行源数据进行跨域融合，满足企业级全局视角的使用需要。工行从2010年起启动了企业级数据体系的建设，构建了统一的数据仓库。工行基于业界的经验，结合自身的探索和实践，摸索出工行的第一套数据体系——基于范式模型的数据体系。

该体系基于工行企业级数据仓库构建，技术上有效屏蔽上游改造对下游的影响。工行在境内、境外分别建立了企业级数据仓库，承担各自领域多数据源的统一加工，并提供集中式的固定报表、指标查询、对接外部系统等功能，新增了灵活分析挖掘等服务模式。

数据分层上，总共分为四层，分别是ODS层、基础区（十大主题）、汇总区和数据集市。其中基础区基于Teradata公司的FS-LDM十大主题模型。

ODS层：ODS全称是Operational Data Store，即操作数据存储层，主要用于存储与业务相关的实时、当前的操作性数据，以满足快速查询、实时监控和快速处理的需求。ODS包含了所有业务系统和业务过程所产生的操作数据，主要目的是为后续的数据仓库层提供规范化、标准化的数据源。

基础层：基础层也称为核心层，是数据仓库的基础，主要包含了Teradata FS-LDM十大主题模型中的维度和事实表。这些模型主要是根据业务需求，将数据按照不同的业务领域进行分类、整理和聚合，形成一个更加完整、准确的数据仓库，便于进行查询和分析。

汇总层：汇总层是基于基础层构建的一层数据，通过对基础层中的数据进行聚合、计算、归并等操作，形成具有一定计算意义的数据集合。汇总层主要用于业务分析、决策支持、业务预测和数据挖掘等场景，同时也可以用于报表和可视化的展示。

集市层：集市层是一个面向特定业务领域的数据仓库子集，包含了多个汇总层和基础层的数据，是为了更好地支持某个特定业务领域的决策和分析而建立的。

基于该数据体系，工行数据资产覆盖了全集团分析挖掘基础数据，提供了主题数据、知识数据等共享数据资产。技术平台提供多种数据采集、数据管控服务套件，确保数据及时、可用、准确供给。各专业和分行总共近30+行级基于此体系构建。该体系帮助上层应用在运营管理、客户服务等领域实现了业务的创新。

阶段2：开创基于数据中台的数据体系

基于范式模型的数据体系应用多年来，为工行的用数场景带来了很大的帮助。但面对业务复杂度不断攀升，用数需求不断提高，面临如下挑战：

按照3NF构建，存在一张表依赖于上游多个文件生成的情况，时效较差。
对外服务宽表覆盖面较窄，集中于传统银行业务的账户主题。
具有了企业级的全局数据视角，但缺少全量细节数据。
各专业系统中积累了大量数据资产，但未能充分暴露和应用。
即插即用型的数据服务不够丰富，还不能使用户快速感知、发现和获取数据模型，不能适应全行产品快速创新的需求。
数据资产运营不足，尚未形成统一的数据全资产展示、使用情况分析的体系化系统，形成通过运营数字指导下感知业务变化趋势，防范数据、模型等新风险的有效机制。

为应对上述挑战，进一步提升数据服务能力，解决分行和专业领域痛点问题，更好地满足全集团大数据和人工智能快速创新的需要，工行启动了全新的数据中台体系建设，打造高效、智慧、开放、共享的数据服务体系，提升大数据服务云数据服务能力。数据中台体系用于替代此前的基于范式模型的数据体系。

数据中台体系在物理实施上弱化3NF数据模型，建设以“贴源、聚合、萃取”为核心的数据分层架构体系，提升对外服务时效。

贴源层继承工行业务建模成果，以贴源方式存储来自于各产品层应用的源生数据，为聚合层、萃取层建设提供数据支撑。贴源层覆盖结构化、非结构化，行内、行外，境内、境外全数据汇聚。支持流式、系统复制以及批量文件等多种数据采集方式，满足不同时效的数据应用场景。

聚合层基于主题聚合，以共性需要为导向，将分散的信息重新排列组合进行归集和汇总，保证信息充分内聚，形成完整统一的聚合单一视图，其最终表现形式为数据宽表。较以往十大主题数据模型方式，更符合专业条线业务视角，加工链路更短，数据资产能够更快溯源。知识图谱将异构多源的孤立数据组织成网络，提供从关系角度分析问题的能力，进而从更深的层次上挖掘数据背后的价值。

萃取层沉淀全行共用的数据加工逻辑和加工结果，提高指标和标签在全行数据应用的准确度和复用性。萃取层包含通用领域四种数据服务和专业领域十一种数据服务。萃取层以DataAPI和BI工具方式，为业务系统提供高效的数据服务，让数据变成资产并服务于业务。

构建数据中台体系后，从上层用数成效明显，具体如下：

数据类型方面：除结构化数据，支持处理半结构化、非结构化数据；数据容量从TB提升到PB级别；新体系的引入，提升了处理时效，提供了自助化、智能化工具。
数据资产方面：资产类型更为丰富，形成八大类数据资产。可以使用信息提纯后的数据。数据处理过程不再以教条化的概念主题模型来构建数据体系，而是采用更贴近业务视角的模式。
数据服务方面：由经营分析导向推动业务优化调整为数据服务化并嵌入业务流程，让数据成为业务系统的一部分。

数据中台体系下的技术选型

数据中台体系落地时，整体基于工行大数据技术平台。为满足工行数字中台发展需要，打造技术领先和自主可控的大数据平台，工行根据使用场景将底层技术栈进行封转，分类打造了能力丰富的服务引擎。全新的数据中台体系底层基于Hadoop技术栈构建，核心大数据技术组件如下：

对于批量计算服务，Hive/Spark支持基于分布资源调度框架可“就近”调用集群中的多个节点来共同完成涉及PB级海量数据的大作业。相较MPP架构，Hive/Spark的DAG架构面对单点故障时的容错能力更强。同时，在技术生态方面，支持SQL、Java、Python等多种开发语言，对AI生态的兼容性也较强。因此，工行将Hive/Spark作为数据中台体系批量处理的主要支撑服务，并兼顾转型阶段，保留基于MPPDB构建的聚合层数据模型。

对于交互式查询服务。HetuEngine提供面向于大数据的实时交互式查询服务，与批量数据处理服务无缝打通，支持对PB级数据高并发、低延时的分析处理，可提供13000名分析师使用实现全行即时BI，适用于对海量数据进行自助的多维分析透视和业务探索的场景。因此，工行将HetuEngine作为数据中台体系中数据分析师交互式探索的支撑技术。

对于数据存储，HDFS支持通过分布式存储架构支撑EB级海量数据的存储，贴源层基于HDFS构建了全行统一的数据湖，拥有全量的明细数据。

Hadoop有非常好的扩展性，单集群可以支撑数千节点，可以满足工行数据湖的大规模存储和计算需求。基于贴源层数据，通过Hive/Spark开展批量加工形成聚合层、萃取层数据，数据同步至HBase、ClickHouse、GaussDB等领域专题库对外提供服务。萃取层的对外服务可根据业务场景，选取最佳的集市组件，比如大宽表明细聚合场景采用ClickHouse，多表关联的联机分析场景采用MPPDB实时数仓等。大数据生态丰富的组件可支撑多样化的服务场景。

基于Hadoop技术栈的数据中台除了上述优势外，还可以做到一份数据，无需搬运应用于多种用途：

可用于聚合层、萃取层进行批量加工。
可基于HetuEngine实现数据湖中全量明细数据的即时探索。
可对接工银图灵全行统一AI平台，为工银图灵提供机器学习的算力和数据，AI平台可使用中台的数据进行深度挖掘分析。
随着基于实时数据湖Hudi表的流批一体的数据研发模式建设，流批数据进行实时融合应用。

大数据平台技术架构

工行大数据平台为支撑数据中台体系，平台从用数领域、垂直领域、通用领域和大数据基础服务领域等多个维度，构建了完善的技术体系，全方位满足上层便捷用法的需求。

用数领域：打造快捷用数技术平台，赋能大数据研发和业务用数分析场景。包括大数据工作站、即时BI平台。大数据工作站提供全面的研发与测试服务，提升大数据研发人员工作效能。即时BI平台提供全面的数据分析与图表展现服务，降低数据探索门槛，提升价值转换效率。

垂直领域：打造大数据领域能力突出、边界清晰的技术平台，实现面向大数据垂直领域的技术赋能。包括批量计算、流计算、联机分析、对象存储。

批量计算：提供海量结构化或半结构化数据的采集和大规模并行计算能力。
流计算：提供事件驱动式逐条实时/准实时的分析、统计、处理计算能力。
联机分析：提供海量数据高并发的键值、复杂查询能力。
对象存储：提供面向海量非结构化数据进行高并发联机存取的能力。

通用领域：打造基础数据服务技术平台，实现面向通用数据处理领域的技术赋能。包括数据交换与数据安全。数据交换提供基于文件、增量日志等形式的通用数据交换能力。数据安全提供通用的数据全生命周期安全保护解决方案。

大数据基础服务：为魔方各技术平台提供统一的资源调度、日志中心、运营监控等公共服务能力。其中，通过大数据资源管理服务的建设对星云提供的裸金属资源进行大数据专项虚拟化，可屏蔽下层基础设施的异构性差异，满足大数据租户体系运行，使魔方体系各技术平台可以跨机房、跨代际、跨芯片、跨云进行部署，打造了银行业最大的大数据平台体系。

在架构演进方面，工行大数据平台会向着实时数仓和数云融合这两方面来进一步来开展。

实时数仓方面：随着数据中台提出“数据驱动，运营闭环”的核心理念，强调了数据及时反馈的重要性，要求大数据平台能够支撑业务端到端高时效的数据感知、分析决策、行动和反馈。大数据平台提供了实时数仓能力，形成秒级、分钟级、小时级各类时效场景支撑能力，已有较全面的推广及应用。大数据平台仍在不断提升端到端的实时采集、实时计算、实时分析能力，达成实时场景规模化建设目标。

数云融合方面：通过建设云上统一存储服务，实现存算分离部署形态，解耦大数据存储与计算资源，并在架构上独立建设统一元数据服务，全局形成统一的数据视图。基于云上存算分离形态，多个大数据集群实现了统一存储，元数据统一管理，全面支撑数据中台“全”数据融合分析，可减少集群间之间的冗余存储。借助云平台弹性的优势,可避免资源按业务高峰满配，造成闲时资源浪费。基于云平台，资源调配更加灵活，可错峰使用，提升整体资源利用率。

建设成果

工行数据中台体系下的大数据平台是以数据共享、资源统筹、软件服务化的云理念打造的具备海量数据存储、批量计算、流计算等能力的企业级大数据云基础设施，融合了关系型、非关系型数据处理技术，为应用系统提供开箱即用的大数据服务。率先在金融同业中全面实现国产化的大数据平台建设，容量大、算力强、功能完备、算法齐全的特点在金融同业中表现突出，处于领先。

截止至2023年1月，大数据平台通过跨集群联邦集成，总装机已达5700台物理设备，其中单集群规模最大超过2200，数据总量近80PB，为全行统一、融合、集约用数提供了基础。通过批量计算、实时计算、联机服务等多样化的服务引擎，提供实时、秒、分钟、小时的全场景覆盖，共支撑了360家总分行应用接入，服务了数据分析师、总行及各分行金融科技部、管理部，集团一二级分行及子公司，全行业务部门，覆盖了风险防控、客户营销、监管报送等多个关键业务领域，同时随着主机下平台的不断推进，损益查询等业务也不断下移到大数据平台上来开展，大幅提升了业务数据加工完成的时效。运营管控方面全自助可视化开发及运维工作站实现技术支撑能力全栈覆盖。

后记

为更好地支撑全行数字化转型，未来大数据平台将结合业界技术发展趋势，持续引入新的技术，不断提升用数体验，满足全行用数需求。


展开全文