蚂蚁集团联合五所高校推出智能体安全评测平台-移动支付网

蚂蚁集团联合五所高校推出智能体安全评测平台

移动支付网 2026/5/25 17:05:56

AI Agent正在从“回答问题”走向“调用工具、操控系统、执行真实业务”。当智能体真正接入网页、邮件、文件、API与业务系统后，安全风险也不再只是模型“说错话”，而是可能演变为Agent“做错事”：误删文件、泄露密钥、外发数据、污染长期记忆，甚至触发真实业务损失。

为系统回答“智能体能否在复杂真实环境中高效完成任务，同时守住安全底线”这一关键问题，智能体安全评测平台Agent3σ正式推出。该工作由蚂蚁集团、清华大学、北京大学、浙江大学、南京大学、杭州电子科技大学共同参与，面向OpenClaw类智能体构建多层次、可复现、贴近生产环境的安全评测能力。

01 为什么需要Agent3σ？

传统大模型安全评测更关注模型输出是否合规，但Agent的核心风险往往发生在“执行链路”中：它会读取环境、规划任务、调用工具，并对外部世界产生影响。

Agent3σ的评测视角因此从单点问答升级为系统级风险评测，重点刻画三个问题：

这意味着，Agent3σ不只评估模型“会不会拒绝”，更关注Agent在真实任务链路中是否真的会产生风险后果。

02 七大风险维度：覆盖Agent真实攻击面

Agent3σ将智能体在真实使用中可能面临的安全风险归纳为7大类、30+典型场景，覆盖从本地系统到金融交易、从即时攻击到长期污染的完整风险面。

03 三级评测体系：由浅入深，还原真实风险

为覆盖从模型训练、红队筛查到上线前验收的不同阶段，Agent3σ构建了递进式三级评测体系。

三级体系分别回答三个问题：模型能否识别风险，Agent是否会在交互流程中失守，以及在真实环境中是否真的会产生外部后果。三者结合后，可以形成从信号级、过程级到环境级的完整安全画像。

04 首批榜单：多层次评测揭示真实安全水位

Agent3σ统一使用可横向对比的核心指标：

首批榜单显示，多层次评测能够揭示仅靠静态问答难以发现的真实差异：

05 典型案例：网页间接提示词注入如何演变为数据外发？

以“访问网页并总结内容”为例，网页中可能隐藏一段间接提示词注入，诱导Agent在后续步骤读取邮箱摘要，并尝试将敏感内容发送到外部端点。

在Agent3σ中，同一个安全问题会在三个层级下被逐步验证：

这种递进式设计可以把“看起来安全”的模型回答，与“实际执行中是否安全”区分开来。

06 面向产业：为模型、应用与治理提供安全基线

Agent3σ的发布，推动AI Agent安全评测从单一Prompt攻防，进入全任务链路可观测、可量化、可比较的新阶段。

未来，Agent3σ将持续扩充风险样本库、工具链和场景覆盖面，并逐步释放更多评测能力，携手社区与产业伙伴共建智能体时代的安全底座。

参与单位

本工作由清华大学、北京大学、浙江大学、南京大学、杭州电子科技大学、蚂蚁集团共同参与。

阅读原文


展开全文