分钟级锁定异常线索,交行基于智能体焕新存储运维范式
欧文移动支付网2026/1/22 9:24:43

随着金融业数字化转型速度加快,行业的数据中心规模与复杂度也在攀升,传统运维模式存在的被动响应、故障定位低效等问题日益凸显。在此背景下,交通银行数据中心团队联合华为DME存储数据管理研发团队,利用大模型Agent、知识库等技术,推动运维模式从“经验依赖”向“智能决策”转型,实现了IT系统运维的可靠性提升和效率优化。

据了解,传统运维方式依赖告警监控、关键指标分析等手段,难以提前发现隐患进行主动防范,应急处置时仅依靠工程师经验难以快速定位问题,故障排查往往陷入“大海捞针”的困境。针对这一问题,交行与华为团队构建“1+1+N”多Agent智能运维架构,形成“感知-决策-执行”的完整闭环。其中,第一个“1”指的是1个大脑,即动态任务决策引擎,依托知识图谱和RAG技术实现智能运维决策;第二个“1”指的是1个中枢,即流程编排引擎,可实现多任务并发调度;“N”指的是N个智能体,可提供计算、存储、基础设施的全场景Agent协同。

基于多Agent智能运维架构的DataMaster运维智能体,依托NL2API(自然语言转API)技术与RAG知识引擎的融合,运维人员不再需要手动串联繁琐的操作步骤,通过自然语言指令即可发起运维查询与诊断。例如,当运维人员提出“分析下A虚拟机CPU性能问题的原因”,该智能体能够理解人的意图、自动分解任务、调用相关API和数据、生成分析报告并给出优化建议。值得一提的是,从交行的项目实践来看,该智能体已实现单轮问答准确率超90%,多轮对话理解融合度达85%以上。

此外,对于每日百亿级日志处理压力,DataMaster运维智能体采用“快思考+深思考”双路径诊断机制:“快思考”基于规则匹配,可秒级响应常见故障;“深思考”则融合统计特征与语义编码,结合大语言模型与故障知识图谱,实现根因深度推理根因。双路径诊断机制,使系统能够在分钟级锁定异常线索,兼顾响应速度与诊断准确性,破解了传统规则引擎应对复杂异常能力不足、纯AI模型响应延迟的难题。

据《智探AI应用》了解,此前,交行与华为云数仓DWS曾推出智能运维工具Autopilot,该工具与DataMaster运维智能体形成场景协同。

信息显示,该工具以“数据驱动、AI诊断”为理念,构建“监控-诊断-优化”的闭环体系,具备三大智能运维能力,具体包括:一是全维度实时监控,覆盖硬件资源、性能指标与SQ执行效率,实现从集群到语句的透明化可观测,支持实时预警与历史回溯;二是Agent诊断引擎,针对资源告警,Autopilot的AI诊断Agent功能可自动分析关联指标,快速锁定问题源头,生成可疑用户、可疑SQL清单与优化建议,将故障定位时间从小时级压缩至分钟级;三是SQL级深度洞察,工具突破传统监控的“指标层面”,深入至SQL语句执行计划、锁等待、数据倾斜等细节,帮助DBA精准识别低效查询、死锁风险或参数配置。

本文为作者授权发布,不代表移动支付网立场,转载请注明作者及来源,未按照规范转载者,移动支付网保留追究相应责任的权利。

展开全文
相关阅读
资讯查询取消