光大银行吴勇:智能运维的探索与实践
移动支付网 2020/6/22 9:09:19

6月18日晚,由北京金融科技产业联盟、移动支付网联合举办的《金融科技大讲堂》第六期准时开播,光大银行信息科技部系统运维中心监控管理团队主管吴勇从数据中心在支持业务敏捷化面临的挑战入手,介绍了光大银行借助大数据、人工智能等技术在“指标异常检测、调用链异常检测、多维定位”等多个智能运维场景中的探索与实践。

新形势下的运维变革

近年来,以大数据、人工智能、云计算为代表的金融科技蓬勃发展。2019年下半年,央行发布《金融科技(FinTech)发展规划(2019-2021年)》,明确指出金融科技是技术驱动的金融创新,旨在运用现代科技成果改造或创新金融产品、经营模式、业务流程等,推动金融发展提质增效。

同时,各银行纷纷成立科技子公司,并与各互联网巨头成立战略联盟,以金融科技为战略推进金融业务创新,同时,全面推进数字化转型和中台能力建设。技术发展的同时,银行数据中心也逐步以数据和业务价值驱动,从流程化、职能化向数字化运营转变。

AIOps(即智能运维)是Gartner在2016年提出的概念,包含三个关键要素:机器学习、大数据和平台,围绕监测、服务、自动化三大领域。初始阶段聚焦在观测领域,利用大数据与智能运维的闭环,探索智能运维落地。

随后,吴勇介绍了光大银行的智能运维实践。

智能运维平台建设

吴勇表示,光大银行智能运维建设与业务运营敏捷化推动的数据中心运营需求变化密切相关。一方面,私有云、容器云等技术的应用,分布式应用架构、多活数据中心等技术架构的发展都是业务敏捷化的重要支撑;另一方面,业务快速投产带来生产系统业务属性、业务规模的变化,以及多活数据中心对网络的要求等,都促进了智能运维的发展。

智能运维的建设是一个体系化的工程,面临几个较大的挑战:

(1)在数据采集方面,数据传输的时效性、数据传输的流量问题、数据的汇聚管理等都会影响数据采集效率;

(2)在实时流数据计算方面,如何做到数据标准化、实现实时流数据的信息关联获取,如何完成实时流数据的入库前预处理都面临挑战;

(3)在数据质量方面,元数据缺乏标准、数据缺少明确性强关联定义都会影响数据质量;

(4)在数据展示方面,如何完成有效信息、重要信息的筛选,如何准确识别信息之间的关联面临挑战。

大数据可以划分为业务大数据和科技大数据,这两者有着一定的区别。业务大数据主要是以大量历史及离线数据分析为主,目标是将数据分析结果用于业务应用,提升业务能力。而科技大数据以近线数据分析为主,通过准实时数据分析,目标是将数据分析结果应用于生产运维质量的提升中,保障运维生产的正常进行。与业务大数据相比,科技大数据的标准化程度更低,应用难度也更大。

吴勇表示,科技大数据是智能运维的关键要素之一,我们也称之为科技运营数据。从数据来源的角度看,科技运营数据包含配置数据、运行数据、流程数据。配置数据是生产中心基础信息,描述生产中心的静态关系;运行数据是配置对象在生产业务中产生的数据,是动态数据;流程数据则是对触发配置变化的管理流程信息。

光大银行的智能运维建设中有一个项目群支撑,包括采控平台(解决采集方式多样化的问题)、数据平台(解决数据治理和存储问题)、数据分析平台(提供AI应用的算法服务)、展示平台(实现数据可视化)等。

光大银行智能运维项目群概况

在智能运维建设中也依托于数据采集、数据存储、流式计算、算法分析、数据可视化5个方面能力建设。数据采集要能支持全行内部不同来源的数据,要能够进行数据预处理,比如可以建立数据预关联,从而提升后续数据标准化加工效率;数据存储方面,要提升对实时数据存储能力,可以通过数据分级、数据融合等方式;数据计算服务能力方面,需要加强对流式计算、算法训练、智能算法等优化迭代;数据可视化方面,在搭建数据中心全景应用墙的同时也要注重可视化视图设计工具建设,支撑数据共享可视化能力。

智能运维场景探索

目前,光大银行的智能运维主要应用于故障发现及预警、定位。

智能运维场景概览

其中,KPI异常检测通过基线匹配完成:分析历史数据,获取KPI关键特征,根据特征进行异常判断。

智能运维算法可以拓展至多个应用场景,包括趋势预测(实现主要系统所部署的关键服务器数据存储空间使用率、对应的关键业务数据库表空间使用率的准确预测)、排障树(实现自动化的分析定位排障)、日志异常检测(实现日志全解析及实时异常检测,实现日志层面的实时准确异常检测,辅助管理员进行日志根因分析)、告警压缩(实现海量告警进行压缩,配合后期的告警根源定位算法,准确定位出根源告警)等。

当前的探索在算法场景中还是一套算法匹配一个场景。然而,智能运维对算法的应用不一定局限于这种应用方式,我们可以通过算法服务化,推广算法服务能力的应用。更进一步来说,在算法之外,智能运维的服务理念或许是更根本。

讨论环节

课件分享结束后,吴勇回答了观众提出的问题,就“中小银行数据量不够多,怎么做好智能运维”、“数据作为核心资产移动化是否具有风险”等问题进行了探讨。

吴勇表示,对于智能运维建设来说,数据量不够多不一定是生产运行没有这些数据,可能的问题是没有采集这些数据。智能运维是一种理念,不局限于海量数据。

数据作为核心资产移动化具有一定风险,尤其是生产运维数据。银行可以从从两个方面入手:建立移动App安全防控体系、数据脱敏展示。同时,在风险可控的前提下,可以进行数据运维移动化。

此外,吴勇还针对“光大在智能运维实践中用到了哪些技术栈”、“多问题关联是否只能采用故障树”、“多系统架构下,针对具体业务数据的全链路监控,是否必须采用全局流水号”等问题与观众进行了互动解答。其它精彩内容欢迎关注直播回看:


展开全文
相关阅读
资讯查询取消