工商银行开放平台存储转型回望
2020/11/20 9:54:29

放眼业界,以“小型机+集中式存储”为核心的IT架构在以往相当长一段时间内一直都是企业关键业务的数据基础支撑,其在安全性、可靠性、稳定性、可用性方面都是金融企业IT系统的首选。金融科技蓬勃发展的今天,随着云计算、大数据等新技术的广泛应用,企业用户对业务的规模、灵活性、扩展性都提出了更高的要求,与此同时分布式技术的快速演进让金融行业关键业务在选择IT基础机构时有了更多的可能。就存储技术而言,以软件定义、分布式、全闪存为特征的新一代存储快速增长并已经成为业界主流,“X86+分布式存储”正在逐步为保险、证券和银行等金融企业所接受和推广应用。

数据中心作为数据化转型的中枢,传统的“稳态”业务特别是IT系统后端的数据库还将在一段时间内继续保持传统架构,而对于以弹性、快速迭代为特征的“敏态”类应用,业界正在逐步转向X86通用硬件平台,转向开放的软件定义存储的分布式架构,以适应业务的敏捷要求。

回顾工商银行IT系统开放平台的存储体系演进历程,我们不难发现就是一个从HDD逐渐过渡到SSD,探索分布式存储的转型解决方案并呈现出“集中式+分布式”双态共生运行的过程。

传统稳态IT环境,集中式存储是主力军

工商银行开放平台IT系统自2003年开始引入集中存储技术,通过软硬件配置的持续升级迭代不断提升磁盘机单体容量、性能、可靠性,有效支撑了CB2000、NOVA等工商银行历代业务系统的稳定可靠运行。

18年来,我们不断引进和扩大存储使用规模,从最开始的2TB到后来的80PB总共增长了超过4万倍,见证了集中式存储技术的盘包技术、通道技术等软、硬件环节持续演进。磁盘控制器架构从早先双控制器+缓存镜像(Cache Mirroring)向多控制器+全局缓存的负载均衡架构转变,从仅能容忍单盘控故障到可以应对双盘控同时故障,提升磁盘机高可用能力同时也增加了磁盘机性能上限;磁盘阵列的RAID模式从RAID 1到RAID 5再到伴随存储池化技术的引入的RAID 6,不断提升磁盘组的冗余能力,而二次RAID的虚拟化技术也逐步成熟和应用,通过磁盘机全局热备大幅缩短单盘故障的修复时间;HDD磁盘转速从7200转、10000转再到15000转,不断提高单盘的I/O吞吐能力;磁盘机子系统前、后端光纤通道数量从16口增加到128口、256口,提升了单台磁盘机的整体I/O能力等。

集中式存储实际上是基于传统的集中式多盘控以及专有背板交换协议进行数据交换的紧耦合横向扩展多控存储。它具有集成度高、I/O路径短、通信协议效率高,I/O响应时间短,以及成熟度高的特点。在云计算、大数据应用还未大面积推广的年代,能够很好满足我行IT系统对于传统业务的数据存储、数据服务器、数据安全的生产运行要求。

随着开放平台应用系统的不断增加,2010年前后,工行不得不面对应用系统之间的数据交互和共享持续增加而导致数据服务时效性不足的问题。在进行技术方案选择和设计时,兼顾后端数据库现有的块设备访问模式,以及整体可靠性、稳定性、吞吐能力的综合因素,没有采用通常的网络文件系统和NAS方案,而是采用FC-SAN技术架构下的集中式磁盘共享技术,实现基于光纤交换网络的块存储统一数据交换系统,满足日均40万文件约10TB生产的联机和批量数据的高效共享和交换需求。

在2010年进行“两地三中心”高可用架构设计时,我们仍然是基于集中式存储的技术架构,利用其磁盘机间的同步、异步数据复制技术,通过光纤网络,结合数据库的高可用技术一起,实现了对开放平台IT系统的同城RPO接近于零,异地RPO约5分钟高可用保护目标。

随着银行业务的持续增长,单体应用对于后端存储子系统的I/O性能压力不断提高,集中式存储磁盘机HDD磁盘I/O能力不足缺点也日益凸显。但近年来SSD介质的性价比和稳定性不断提高,有效缓解了集中式存储的I/O瓶颈,全闪存盘阵列(AFA)的出现既可以有效解决性能压力,又可以完全融合已有的容灾、高可用复制等数据服务生态,所以可以预见集中式存储在银行IT系统中还将于相当长的时间内继续存在并发挥重要作用。

敏态IT系统环境下,分布式存储大行其道

随着银行业务规模迅速扩大、面向互联网业务场景不断丰富,以主机和小型机为主构建的传统银行信息系统,存在资源供应效率低、成本高、扩展能力差、运维自动化程度低等突出问题,为此工商银行积极布局和推行IT架构转型和ECOS战略,构建自己的分布式体系。我们需要在IT基础设施层构建起开放共享、透明高效、按需供给的云计算资源管理模式,以适应分布式的整体IT架构,则在数据中心建立起可以高效灵活适配云计算、大数据等场景的存储供应和服务体系至关重要。

在后端提供支撑的存储系统,从业务敏捷交付、运维灵活性和可持续性而言应当具备以下的显著特征:高可用、高容量、可扩展、云适配、接口标准、管理便利。SSD固态盘为存储子系统提供了数倍于传统HDD磁盘的高I/O性能,万兆以太网、SDN通用网络平台等使提供高性能、低延时的网络连接服务成为可能,人工智能技术为存储子系统提供了快速高效的故障诊断能力等等,一系列技术创新带来的红利,为脱胎于互联网业务的软件定义存储向金融行业移植带来了巨大的可能。

分布式存储采用通用标准服务器,基于TCP/IP网络协议,通过分布式存储软件将硬盘整合为存储池,对上层提供存储服务,具有横向扩展、松耦合、高可靠、低成本,软硬件成本低、弹性扩缩、云适配等优势。

工商银行自2014年启动云计算体系建设规划,建成了体系完备、灵活高效的企业级金融云平台,实现从传统集中式IT架构到云计算架构的转型。规划引入与我行IaaS私有云深度融合的分布式存储,采用开源CEPH定制版本和成熟的商用企业级分布式存储软件,利用分布式存储大容量、高扩展性,以及云适配性特点,有效构建了PB级的分布式存储资源池,为工行的基础设施云提供了基础支撑,满足超过50000套开放平台操作系统的灵活部署、数据复制、快速迁移。

数据中心生产运维过程中,存在大量的离线备份数据,此类数据数量大,访问频率随时间降低,对访问性能要求不高,但存储空间要巨大。我们研究并采用开源分布式存储技术,借助软件定义存储自身的分布式特点,通过S3接口与备份软件相结合,实现了以对象存储方式为生产系统的主用存储提供安全可靠的数据离线备份服务,满足2000套Mysql数据库,以及各类操作日志的数据日常的离线备份。

可以说,虚拟化、云计算大数据等新技术的兴起,极大推动了分布式存储在银行等金融企业的普及使用。从我行数据中心近几年的基础设施统计数字来看,分布式的占比已经越来越大,总体容量已经与集中式存储平分秋色,预计将在一到两年内超越集中式存储。

双态共存,各取所长

传统银行企业当前仍存在相当一部分的老式的、竖井式的应用系统,在适配分布式池化存储架构方面存在困难,需要一定的转型窗口期,这部分应用还将固守在集中式存储架构。与此同时,对于金融行业用户而言,稳定性是压倒一切的。新兴的分布式存储系统还处在持续进化的过程中,稳定性和可靠性还需要进一步打磨,要让银行将最核心的业务应用系统全部移植过来,还多少存在一些顾虑,因此分布式存储全面取代的时机还未成熟。在未来较长一段时间内,传统金融行业的传统存储所支撑的“稳态”业务和以分布式软件定义存储为代表的存储架构所支撑的新型“敏态”业务将会是一个互为区分、各擅所长、相互融合的共生格局。银行等金融企业可以依据实际不同的数据存储和访问需求,分别选择不同的存储架构方案,进行分类和分级管理。

长远来看,随着金融企业的IT架构的转型,包括分布式、云计算云原生的应用架构演进,大数据、人工智能、区块链、物联网等新兴技术的普及和应用,IT系统的存储系统的灵活性和扩展性将是最为首要和庞大的需求,软件定义的分布式存储池化管理和应用将成为主流,并全面取代集中式存储成为金融行业数据中心的存储技术架构的核心,让我们拭目以待。

(本文作者单位为中国工商银行数据中心)

本文转载目的在于知识分享,版权归原作者和原刊所有。如有侵权,请及时联系我们删除。

展开全文
相关阅读
资讯查询取消