阿里巴巴李飞飞:一站式云原生分布式数据服务,助力金融行业数字化转型
2022/1/21 10:34:44

数据库进入“云原生+分布式”时代

权威咨询机构Gartner指出,云将主导数据库市场的未来,到2022年,75%的数据库将被部署或迁移至云平台,只有25%的数据库会在本地运行。云化无疑代表了未来,企业如何在云原生架构下使用数据库,成为必须要思考的问题。

在传统数据库的系统架构下,采用存储、计算紧耦合的设计方式,才能最大程度地发挥系统的优势。举个生活中的例子,过去每家每户会根据各家用水量打一口水井,这与传统的数据库系统使用、计算、存储资源的方式一样,但根据“用水量打水井”的方式属于紧耦合。如果水不够了怎么办?这就是传统数据库系统里经常提到的业务——扩容。在金融行业,数据库系统扩容通常需要提前几个月甚至半年去规划,进而细致部署、缜密实施,经过上线、灰度、再验证等一整套非常漫长的流程,而且业务高峰过后再进行缩容也很具挑战性,往往会造成极大的资源浪费,水平拓展的限制也很难达到业务层需要快速变化的要求。

金融业务的传统架构中,在线交易数据库、MPP数据库、Hadoop是典型的数据库和数据服务组合方案。OLTP关系型数据库负责核心交易系统如账户、交易等,MPP数据库(数据仓库)负责定期导入OLTP数据,实现ETL处理和分析,“Hadoop+AI平台”负责实现数据集中、数据价值挖掘等。这套架构面临着呈指数级递增的海量数据存储与处理的挑战,更多热点和突发流量带来的挑战,数据集中、实时、在线化的挑战,数据一致性的挑战,需要更智能的数据决策挑战,需要降本增效的挑战,以及运维越来越复杂的挑战。传统架构已经难以满足和响应快速增长的业务诉求,应对这些挑战,同时传统架构在数据链路中的数据传输、数据清洗、脱敏与安全管理、数据血缘、建模开发等诸多问题也亟待解决。

Gartner指出,“云原生+数据库大数据一体化”的数据库体系是必然发展趋势。以“云原生+分布式”为核心的一体化与一站式数据管理与服务,充分结合云计算的资源池化、存储与计算弹性扩展等基础设施能力,在此之上构建起分布式计算、数据库与大数据一体化能力,具备了高扩展性、易用性、迭代快速、成本降低、数据库与大数据一体化等特点,可以很好地帮助企业解决上述问题。未来数据库将全面进入“云原生+分布式”时代。

一站式云原生分布式数据库,引领技术创新与最佳实践

随着数据库技术向“云原生+分布式”数据库方向演进,一个相对完备、引领发展趋势的云原生分布式数据库应具备以下关键核心技术:大数据与数据库一体化,包括HTAP以及离在线一体化;“云原生+分布式”一体化,包括CPU/内存/存储的池化与分离等云原生技术;智能化技术深度融合,即通过AI for Database实现数据库的自感知+自决策+自恢复+自优化和Database for AI实现针对非结构化数据的深度分析等;Multi-Model多模,即支持多样和多类型数据的存储与分析;软硬件一体化,充分发挥新硬件的优势;安全可信技术,包括可信存储、可验证日志与计算、全链路加密技术、加密数据库、多方安全计算与隐私保护等。

结合技术与行业发展趋势,下一代云原生分布式数据库需要提供一站式全链路数据管理与服务,助力业务数据无缝流转,通过统一的数据服务平台,实现数据从存储到处理到交易到计算与分析的一站式管理与服务。

云原生分布式数据库在银行、保险、证券、互联网金融等行业和场景逐渐落地,助力业务走向平台化,助力交易业务敏捷化和规模化,助力数据分析业务在线化、集中化,实现跨部门共享,助力运维智能化。其中,最为典型的是以Oracle/DB2为主流代表的交易数据库迁移替换和以Teradata、Greenplum、Hadoop为主流代表的数据仓库升级。

1.一站式Oracle/DB2关系数据库替换实践

Oracle/DB2数据库在金融场景有多年的生产环境验证以及成百上千的业务调用经验,迁移的可行性评估、数据库的兼容性、扩展性、单节点性能、高可用、容灾体系、性价比是替换实践最需要的考虑点。

云原生数据库体系在可行性评估阶段有一整套完善的方法,能够科学、严谨地支持一体化Oralce/DB2数据库进行信息采集(包括数据表、存储过程、用户自定义函数、数据类型等)、数据库结构迁移、“数据全量+增量”在线迁移、应用割接等。

云原生数据库体系在应用阶段具有完善的Oracle/DB2兼容性,如数据表、存储过程、用户自定义函数、数据类型等。

云原生分布式数据库体系在扩缩容阶段,通过云原生分布式能力,支持存储和计算分离,支持实时秒级扩缩容以应对流量波峰波谷,降本增效。

云原生分布式数据库体系在数据库的容灾体系方面,通过针对数据细粒度的RAFT/Paxos协议实现“同城双活+异地灾备+两地三中心/三地五中心”的部署,保障业务连续性和可靠性。

2.一站式Teradata数据仓库升级实践

Teradata数据仓库在金融行业承载着核心数据仓库业务,支撑数据存储与计算、数据分析与业务建模、数据集市等核心场景,迁移的可行性评估、数据仓库的超大规模、异构数据融合、兼容性(引擎、模型等)、数据库的性价比、离在线一体化、数据共享、基于时间点的备份/恢复/查询、湖仓一体是最需要考虑的点。

云原生数据仓库体系在可行性评估阶段提供一整套完善的方法,能够科学、严谨地支持一体化Teradata数据库信息采集(包括数据表、存储过程、用户自定义函数、数据类型、业务模型、DSQL等)、结构迁移、“数据全量+增量”在线迁移、集成稽核验证、系统并行等。

云原生数据仓库体系在开发和应用阶段,具有非常完善的Teradata兼容性以及复杂查询支持能力,如数据表、存储过程、用户自定义函数、数据类型等。

云原生数据仓库体系在应用阶段,通过云原生分布式能力,支持存储和计算分离来实现超大规模秒级扩缩容、分时弹性、Query级别弹性能力;通过行列混存、混合负载实现离在线一体化能力;通过结合AI实现结构化和非结构化数据融合分析能力;通过存储共享实现跨部门数据安全共享、统一数据视图和安全访问。

整体实现一份数据多种计算、多样分析,减少数据搬迁,提高数据一致性和实时性。

3.一站式全链路数据管理与服务实践

一站式全链路数据管理与服务在数据业务中越发复杂,在数据业务需求快速增长的情况下,用户亟需完善的统一数据管理解决方案,解决数据存储类型和地域的复杂性,实现从数据的生产、存储、传输、加工到计算的全生命周期管理,数据源覆盖度、数据安全和治理、数据传输时效性、数据开发/加工/计算的敏捷性、数据资产管理的全局一致性是最需要的考虑点。

一站式全链路数据管理与服务在数据生产阶段为数据安全和研发效率提供支撑,包括细粒度权限访问控制、稳定变更引擎、敏感数据脱敏、零停机迁移扩容等能力,支持数据库容灾和异地多活架构。

一站式全链路数据管理与服务在数据集成阶段对数据源和数据目标进行统一管理,支持数据实时集中和计算结果分发,在链路中内置ETL传输转换一体化,当源端运维或结构变更时链路无感知,从而保障多源数据汇聚时效性、稳定性和全链路血缘。

一站式全链路数据管理与服务打通在线处理和离线分析,通过任务编排定期归档数据到云原生存储,并使用数据湖分析对归档或备份数据进行价值挖掘,构建在离线一体化分析。整体实现元数据和数据目录统一,让数据自由流动,敏捷高效地被存储、被加工处理和被计算分析。

图1一站式云原生分布式数据库管理与服务流程

云原生时代,中国数据库的新机遇

随着云计算的技术变革在数字世界的价值凸显,云原生也已成为数字化转型的新技术方向。阿里云自2008年开始在云计算推动的数据库变革领域持续加大研发投入,建立了相对完善的以“云原生+分布式”为基础的一站式全链路数据管理与服务体系,联合上百家的上下游生态服务商为全球客户提供完整的服务。

阿里云在2020和2021年度连续两年进入Gartner全球云数据库魔力象限评估中的第一阵营——“领导者”象限,这也是中国厂商在基础软件领域40多年来首次成为Gartner魔力象限的全球领导者。在OLTP领域,阿里云提供核心的云托管数据库服务RDS、云原生关系型数据库PolarDB及其分布式版PolarDB-X。阿里云RDS实现了全加密功能,是全球仅有的两家实现了全加密数据库产品商业化输出的云厂商之一,能为企业级数据上云、敏感数据管理、跨组织数据流通等通用业务场景提供安全有效的解决方案。PolarDB是国内首个云原生分布式关系型数据库,也是国内首个基于存储与计算分离架构的云原生数据库,获得2020年度中国电子学会科技进步一等奖。在OLAP领域,阿里云推出了新一代云原生数据仓库AnalyticDB。AnalyticDB支持数据库与大数据一体化、离在线一体化分析,取得了权威评测机构TPC发布的TPC-DS榜单全球第一的成绩,还获得2019年度浙江省科技进步一等奖。面向业务开发,DMS(Data Management Service)提供一站式全链路数据管理与服务,可以整合不同的数据库与数据仓库类型,利用云原生产品体系实现从数据的生产、存储、传输、加工开发、计算到数据资产的全生命周期管理。

云原生与分布式技术的深度融合及一站式数据服务平台,不仅是传统数据库和传统数据仓库升级换代的必然选择,同时也将通过资源弹性、数据库大数据一体化、离在线一体化等新技术创新,助力金融业务走向服务平台化、数据集中标准化与在线化、场景智能化,加速业务实现数字化转型。目前,阿里云数据库已服务于包括江门农商银行、友邦人寿、郑州商品交易所等金融行业客户,助力其核心系统向云原生数据库和云原生数据仓库升级,突破传统数据库和数据仓库技术壁垒,完成关键行业信息基础设施国产化建设。

阿里云在中国的发展史是一部共享成功的历史,致力于通过技术创新为客户、合作伙伴和社区提供发展动力,为他们的可持续发展贡献力量。在提升自身产品技术和服务能力的同时,阿里云数据库一直积极寻求和参与相关生态建设,推动形成上下游生态产业链,全力开拓生态合作伙伴体系,现已拥有超过2000家解决方案与服务合作伙伴,其中创新应用、芯片上下游生态伙伴达上百家。其自研数据完成与芯片海光、飞腾、鲲鹏完全兼容,与申威、兆芯兼容;操作系统支持统信、麒麟等创新类操作系统,支持企业在完全创新应用环境中运行。

云深处,新世界,云计算的内涵、结构、服务形态、商业模式正在发生深刻变革。在这个变革时代的关键期,我们在产品、技术、服务、生态四大维度握指成拳,业务高速增长。我们坚信云原生时代是中国数据库的历史新机遇,也自信地迎接云原生时代的全面到来。

(本文作者为阿里巴巴集团副总裁)

本文转载目的在于知识分享,版权归原作者和原刊所有。如有侵权,请及时联系我们删除。

展开全文
相关阅读
资讯查询取消