《AI 智能体安全治理白皮书》
《AI 智能体安全治理白皮书》聚焦 AI 智能体从 “对话智能” 向 “决策智能” 跃迁阶段的安全治理,以 “感知 - 决策 - 记忆 - 执行” 四层架构为核心,系统梳理风险、提出治理方案并分享实践案例,旨在推动 AI 智能体安全、可控、可信发展。
·
内容来源为《AI 智能体 安全治理白皮书》



《AI 智能体安全治理白皮书》核心内容总结
《AI 智能体安全治理白皮书》由中国电信牵头,联合公安部第三研究所、华为、蚂蚁集团、清华大学等多机构编写,聚焦 AI 智能体从 “对话智能” 向 “决策智能” 跃迁阶段的安全治理,以 “感知 - 决策 - 记忆 - 执行” 四层架构为核心,系统梳理风险、提出治理方案并分享实践案例,旨在推动 AI 智能体安全、可控、可信发展。
一、背景与定义:AI 智能体的发展与核心差异
1. AI 智能体定义
指能自主感知环境、制定决策、采取行动实现目标的智能系统,具备记忆、规划、使用工具能力,核心特征为自主性、交互性、反应性和适应性。其发展历经三阶段:
- 早期:依赖规则与逻辑推理,任务简单且无自主学习能力;
- 中期:基于强化学习(如 AlphaGo),可通过环境交互优化策略;
- 当前:以大语言模型为核心,具备语言理解、任务分解、跨工具协作与多智能体协同能力,是本文核心研究对象。
2. 与大语言模型(LLM)的关键差异
对比维度 |
AI 智能体 |
大语言模型 |
核心功能 |
多次调用 LLM 分析决策并执行 |
仅负责语言理解与生成 |
自主能力 |
具备一定自主 / 半自主能力 |
相对有限 |
工具使用 |
可调用多种工具、API(含 AI 模型) |
较少调用 |
环境交互 |
能感知环境并主动交互 |
交互能力有限 |
工作流 |
支持复杂工作流编排 |
仅应用简单工作流 |
二、AI 智能体安全风险:四层架构下的全链路隐患
AI 智能体风险贯穿 “感知 - 决策 - 记忆 - 执行” 四层,且存在层级传导特性(如 “感知失真→决策误判→执行失控”),单一环节漏洞可能被链式放大。
1. 感知层风险:输入入口的不可信性
- 核心风险:指令劫持(嵌入隐藏指令诱导执行)、环境干扰(操纵物理 / 数字环境误导传感器)、协议漏洞(MCP 协议权限继承缺陷、多智能体协议中毒)、多模态感知污染(伪造音频 / 图像 / 电磁信号);
- 典型案例:攻击者向自动驾驶激光雷达发射强光,生成虚拟障碍物导致误判。
2. 决策层风险:推理逻辑的系统性偏差
- 核心风险:错误推理累积放大(多步推理中微小偏差被重复引用)、逻辑陷阱(语义歧义诱导偏离安全路径)、模型幻觉(虚构信息引发错误行动);
- 典型案例:工业运维智能体因模型幻觉虚构 “轴承损坏”,自动触发停机检修导致产线停滞。
3. 记忆层风险:长期存储的持续性威胁
- 核心风险:隐私泄露(记忆库含高价值隐私数据)、记忆污染(注入恶意指令 / 虚假信息并持久化)、状态混淆(跨会话越权,如低权限用户继承管理员记忆状态);
- 典型案例:攻击者通过提示注入,将 “忽略安全审核指令” 写入智能体长期记忆,实现持久化控制。
4. 执行层风险:物理 / 数字操作的失控性
- 核心风险:通信信道劫持(篡改指令,如 “关闭灯光” 改为 “打开门锁”)、目标函数篡改(修改奖励函数驱动恶意行为)、级联资源耗尽(递归调用工具引发死循环);
- 典型案例:攻击者篡改智能体奖励函数,将 “系统稳定性” 改为 “最大化 CPU 使用率”,导致服务器瘫痪。
三、AI 智能体安全治理:分层防护与全维度方案
围绕 “安全、可控、可信” 目标,针对四层风险提出技术防护与制度规范结合的治理策略。
1. 感知层安全:保障输入可信与通信安全
- 工具调用安全:记录交互日志、强制高敏感操作人工审批、沙箱隔离执行环境、动态权限管理(使用后立即撤销);
- 输入输出安全:过滤多模态恶意内容、建立知识可信度分级、多源传感器冗余感知(如摄像头 + 激光雷达 + 毫米波雷达);
- 通信安全:消息加密与认证、引入信任评分机制、高风险操作需多智能体共识验证。
2. 决策层安全:减少推理偏差与强化监督
- 决策验证:部署 AI 行为审计系统,用另一模型检查目标偏离情况;
- 降低模型幻觉:按风险等级分配审核(高风险人工监督、低风险自动化审批)、双重智能体验证目标修改;
- 多智能体交互安全:监控异常角色变更 / 任务委派、追踪决策审批矛盾、检测同类场景决策一致性。
3. 记忆层安全:保护存储内容与隔离访问
- 内容安全:构建分类分级安全向量数据库、沙箱隔离不同智能体记忆模块、内核级内存加密;
- 存储安全:自动化扫描异常内容、会话隔离防跨会话残留、按敏感度设定存储时限、部署时间戳快照实现秒级回滚。
4. 执行层安全:管控操作风险与阻断恶意行为
- 任务识别安全:高风险操作人工确认、行为一致性分析与红队测试;
- 行为安全:限制工具访问权限、验证响应完整性(如防护栏 / 审核 API)、检测 AI 诱导的人类操控;
- 恶意阻断:实时标记异常行为、隔离恶意智能体、临时降级可疑权限、追踪 “重生” 企图。
四、实践案例:平台、协议与端侧的落地探索
1. 星辰智能体平台安全治理(中国电信)
- 平台定位:以星辰大模型为底座,支持零代码创建智能体,公有云注册用户 9000+,创建智能体 2.7w+,覆盖 10 + 行业;
- 核心措施:
-
- 知识库安全:上传前进行数据毒性评估与恶意代码扫描;
-
- 工作流安全:输入输出节点强制调用安全围栏(30 + 检测引擎);
-
- 运营安全:上线前生成 200 条恶意样本测试集,上线后动态扫描漏洞;
- 成效:拦截 7w + 恶意 / 违规请求,识别准确率≥95%,对抗攻击检测成功率≥95%。
2. MCP 协议安全治理(蚂蚁集团)
- 风险背景:MCP 作为智能体通信协议,存在间接提示注入、工具投毒等风险(如 CVE-2025-6514 漏洞可获取设备全权限);
- 解决方案:研发 MCPScan 扫描工具(静态污点分析 + 动态代码关联),分三阶段检测:
-
- 代码扫描:检查敏感 API(如 open/os.system)风险;
-
- 元数据分析:审查工具描述是否含诱导性内容;
-
- 逻辑扩展:评估调用链整体风险;
- 成效:在 Smithery 社区发现 20 + 高危案例,阻止 “读取 SSH 私钥并邮件发送” 等攻击。
3. 端侧智能体安全评测(中国信通院)
- 评测对象:运行于手机、IoT 设备、嵌入式系统的端侧智能体;
- 核心设计:
-
- 多维度框架:覆盖 15 + 任务(邮件管理、金融交易等)、6 大类风险(歧视偏见、隐私泄露等)、30 + 细分风险;
-
- 自动化流程:测试环境初始化→用例输入→执行数据采集→OCR 解析→MLLM 评估→结果可视化;
- 价值:识别端侧智能体在移动端的高风险行为,为终端安全提供技术支撑。
五、持续提升建议:构建长效治理生态
1. 完善顶层设计
- 政府:加快立法明确安全责任主体与合规边界;
- 行业协会:构建分类分级、风险评估、安全测评的全链条标准体系;
- 企业:建立分类分级管理、应急响应机制,强化人才培训。
2. 夯实技术能力
- 感知层:提升输入可信性(数据来源认证、对抗样本防护);
- 决策层:攻关决策可解释性,强化多智能体交互安全;
- 记忆层:数据脱敏 + 权限分级 + 全流程加密;
- 执行层:构建漏洞挖掘与渗透测试体系,实时拦截越权行为。
3. 强化前沿场景布局
按智能体自治水平分类治理:
- 低自治(如问答助手):聚焦隐私保护与内容合规;
- 中自治(如工业检测 AI):增强对抗攻击与异常感知能力;
- 高自治(如自动驾驶、无人机):重点防控物理安全风险,完善紧急人工干预机制;
- 多智能体协作:建立可信共识机制与通信审计,防止攻击扩散。
更多推荐
所有评论(0)