招行数据湖管理专利公布,可提升数据流动区的管理效率
木子剑移动支付网2023/11/28 11:49:18

11月14日,招商银行一项名为“数据湖管理方法、装置、设备以及存储介质”的专利公布。其申请于2023年8月14日。

摘要显示,获取日期配置信息和数据流动区的数据保留切片数量;根据日期配置信息和数据保留切片数量生成数据湖管理策略;基于数据湖管理策略对数据流动区的数据进行管理。

更具体的,数据流动区至少包括在线区和近线区,数据湖管理策略至少包括拆分策略和第一清理策略。根据日期配置信息和数据保留切片数量生成数据湖管理策略的步骤包括:根据日期配置信息和在线区的数据保留切片数量生成拆分策略和第一清理策略,其中,拆分策略用于确定在线区至近线区的数据流转规则,第一清理策略用于确定在线区内保留或清理的数据范围。

而基于数据湖管理策略对数据流动区的数据进行管理的步骤包括:根据拆分策略将日期配置信息和在线区的数据保留切片数量涉及的数据拆分并保留至在线区,并将日期配置信息和在线区的数据保留切片数量未涉及的数据流转至近线区;根据第一清理策略从在线区中清理日期配置信息和在线区的数据保留切片数量未涉及的数据。

另外,数据流动区还包括历史数据归档区,数据湖管理策略还包括归档策略和第二清理策略。根据日期配置信息和数据保留切片数量生成数据湖管理策略的步骤还包括:根据日期配置信息和近线区的数据保留切片数量生成第二清理策略,第二清理策略用于确定近线区内保留或清理的数据范围;根据日期配置信息、近线区的数据保留切片数量和历史数据归档区的数据保留切片数量生成归档策略,归档策略用于确定近线区至历史数据归档区的数据流转规则。

基于数据湖管理策略对数据流动区的数据进行管理的步骤还包括:根据归档策略将日期配置信息和近线区的数据保留切片数量涉及的数据拆分并保留至近线区,并将日期配置信息和在线区的数据保留切片数量未涉及的数据依据历史数据归档区的数据保留切片数量流转至历史数据归档区;根据第二清理策略从近线区中清理日期配置信息和近线区的数据保留切片数量未涉及的数据。

权利要求书提到,数据在数据流动区之间的流动方向为:从在线区流向近线区,从近线区流向历史数据归档区;历史数据归档区的数据保留切片数量包括:数量0和数量1,其中,数量0表示历史数据归档区不保留任何数据,数量1表示留存近线区所保留的日期之前的全量数据。

而日期配置信息包括:日配置项信息、月配置项信息和年配置项信息。

说明书提到该发明的背景为,数据湖为了满足不同数据加工需求及存储成本的合理分配,通常划分为三个数据流动区域:在线区、近线区和历史数据归档区。

其中,在线区也称为操作性数据存储(ODS),主要用于支持企业日常运营。在线区的数据通常较新,比如最近一周或最近一个月的数据,以支持数据跑批加工计算和及时的业务决策。

近线区也称为数据集市或操作数据存储(ODM),主要用于支持企业的业务分析需求。近线区包含比在线区更历史的数据,但与历史数据归档区相比,数据保留时间更短。

历史数据归档区也称为数据归档存储(DAS),主要用于长期保留历史数据和满足法律、合规等要求。历史数据归档区的数据包括所有数据,从最早开始到当前时间。

为使数据湖内资产可以按需有序地在各数据流动区内随时间流转,一般会为数据湖配置生命周期策略。但目前的数据湖配置策略不够灵活,在需要保留日快照、特殊日期等数据时,容易导致数据流动区堆积过多非使用的数据,降低数据管理效率。比如,在在线区中堆积过多非跑批使用的数据,降低数据流动区的数据加工跑批效率。

该发明实现数据在各数量流动区内不连续存储,最大程度地实现按需分配,避免非使用数据的堆积,提升数据流动区的管理效率并优化数据存储成本。

本文为作者授权发布,不代表移动支付网立场,转载请注明作者及来源,未按照规范转载者,移动支付网保留追究相应责任的权利。

展开全文
相关阅读
资讯查询取消