AI Agent 安全治理的分水岭已到来
本报告做三件事
-
① 热点解读 / 这份白皮书说了什么,为什么在此时发布
-
② 趋势推演 / 它预示着行业未来哪些结构性变化
-
③ 企业行动 / 不同角色的人应该如何把它转化为具体动作
基于 Anthropic《Zero Trust for AI Agents》白皮书(2026.05.27 发布)
核心摘要
发生了什么
2026 年 5 月,Anthropic 发布《Zero Trust for AI Agents》白皮书,这是目前业界最系统、最可落地的 AI Agent 安全实施框架。它并非孤立事件:Microsoft、Cisco、OWASP、CSA、NSA 在半年内密集发布同类框架,五大机构不约而同指向相同的核心原则。当全球顶级安全机构和头部科技企业同时往一个方向走,这种共振通常预示着行业基线的系统性切换,而不是某一家的市场营销动作。AI Agent 安全的行业基线正在被系统性抬高,且这个过程不可逆。
为什么重要
Agent 安全与传统软件安全的差异不是程度问题,是范式问题。无人值守执行、跨会话记忆、多 Agent 协作,这三点让传统的访问控制和日志审计几乎失效。IBM《2025 年数据泄露成本报告》显示,13% 的组织已报告 AI 应用层面的数据泄露,其中 97% 在事发时没有部署任何 AI 访问控制。白皮书将密码学身份标识、短命 token、基于身份的网络隔离列为基础级(Foundation)要求,这是三级成熟度的最低档。这意味着大多数企业在过去认为「还行」的安全做法,在这套框架下连入门级都达不到,需要重新校准认知
对企业意味着什么
两类企业面临直接压力。一是在受监管行业(金融/医疗/政务)部署 Agent 的团队:合规门槛大概率在短期内从无到有,先建能力的团队将拿到入场券,后建的团队将面临整改压力。参照 GDPR 落地的历史路径,从监管文件发布到供应商合规要求形成,通常只有 12–18 个月的窗口;国内等保 2.0 落地时,部分行业从标准发布到检查启动不足一年。《智能体规范应用与创新发展实施意见》已于 2026 年 5 月发布,窗口期已经开始计时。二是内部已有 Agent 在跑的企业:当前的权限设计和日志能力,几乎无法应对一次有针对性的攻击,且攻击者的能力正在被 AI 以数量级方式提升。安全行业的经验规律(NIST「1-10-100 规则」及 IBM 历年研究)表明,事后修复的综合成本通常是事前建设的数倍至十倍。综合来看,现在建立安全能力是成本最低的时机,随着合规要求落地和事故公开,窗口期正在收窄。
值得持续跟踪的五个信号
以下几类信息值得定期追踪,一旦出现,意味着窗口期正在快速收窄:第一,国内头部金融、医疗、政务类客户是否开始在招标文件中出现 AI Agent 安全相关条款,这是合规门槛从讨论变为硬性要求的最早信号;第二,是否有公开的 Agent 安全事故报告持续出现,尤其是涉及提示注入、工具链攻击或记忆投毒的案例,每一起公开事故都会加速决策层的认知重塑;第三,OWASP、NIST、CSA 等机构是否发布新版 Agent 安全标准或更新评估框架,这类文件通常是采购标准和合规要求的前身;第四,国内信通院、网信办等机构是否启动 AI Agent 相关的标准制定或安全检查。一旦立项,留给企业的准备窗口通常只有一到两个发版周期;第五,SPIFFE/SPIRE、Spotlighting、AI-BOM 等技术方向是否出现成熟的国产替代或开源实现,这是判断技术选型时机是否成熟的重要参考。
四个风险信号
以下四个维度,是判断当前 Agent 部署安全状况的基本参照:Agent 是否具备密码学身份,还是仍在使用静态 API Key;出现异常时,从发生到知晓需要多长时间;单个 Agent 的最大影响范围是否有人能清晰描述;每个 Agent 的行为是否有具名责任人。任何一项无法明确回答,均指向可被利用的安全缺口。
一、背景:为什么这份白皮书在此时发布
1.1 攻防格局发生了质变
Anthropic 在白皮书开篇提出一个关键判断:前沿 AI 模型正在将漏洞发现到武器化利用的时间窗口从数月压缩至数小时,且边际成本趋近于零。这不是预测,是已发生的事实。2026 年 4 月,Anthropic 发布 Project Glasswing 计划,联合 AWS、Apple、Google、Microsoft、NVIDIA 等合作伙伴,利用 Claude Mythos Preview 扫描关键软件系统。Anthropic 官方称,该模型已发现数千个高危漏洞,覆盖主流操作系统和浏览器;项目启动约一个月后,合作伙伴累计发现超过 10,000 个高危或严重级别漏洞。该案例充分说明,AI 正在将安全漏洞发现能力推向新的数量级。(来源:Anthropic Project Glasswing 初步报告,2026.05.22)
▌ 作者判断 / 攻击者和防御者将同时获得 AI 赋能。率先建立防御体系的一方,将获得结构性优势;滞后的一方,将面临能力不对称的攻击压力。这不是「如果」的问题,而是「何时」的问题。
1.2 Agent 从实验走向生产,安全能力严重滞后
IBM《2025 年数据泄露成本报告》显示,13% 的组织报告了 AI 模型或应用层面的数据泄露,其中 97% 在事发时未部署 AI 访问控制。Gartner 预测到 2026 年底,40% 的企业应用将与任务特定的 AI Agent 集成。Agent 部署速度与安全能力建设速度之间存在明显的时间差。越来越多的企业在安全框架尚未就位的情况下,已将 Agent 接入生产环境并赋予了实质性的数据访问权限。
▌ 作者判断 / 这个时间差本身是当前最大的风险敞口。不是因为 Agent 技术不成熟,而是因为安全配套能力系统性滞后于部署速度。
1.3 行业安全框架密集发布:这是共振,不是巧合
以下是近半年内 Agent 安全框架和指南的密集发布情况:
|
发布方 / 时间 |
框架名称与核心内容 |
|---|---|
|
OWASP(2025.12) |
Top 10 for Agentic Applications 2026:首次系统定义 Agent 系统十大安全风险,包括目标劫持、工具滥用、身份与权限滥用等 |
|
CSA 云安全联盟(2026.02) |
Agentic Trust Framework(ATF):首个专门针对自主 AI Agent 的开放治理规范 |
|
Microsoft(2026.03) |
Zero Trust for AI(ZT4AI):AI 安全参考架构 + 评估工具 + 五项实践指南,将零信任原则扩展到 AI 全生命周期 |
|
Cisco(2026.03) |
Zero Trust for Agentic AI:聚焦身份、访问和行为三个维度的实时治理 |
|
NSA(2026.01) |
零信任实施指南(ZIGs):为美国国防体系的零信任落地提供分阶段操作指引 |
|
Anthropic(2026.05) |
Zero Trust for AI Agents:六大能力域 + 三级成熟度 + 八步工作流,当前业界最系统可操作的 Agent 安全框架 |
▌ 作者判断 / 六个独立机构在六个月内发布同类框架,这种密度在安全行业极为罕见。当全球安全机构和主要科技企业同步往同一方向推进,历史经验表明这通常预示着合规要求和客户评估标准的系统性切换。Agent 安全已从边缘议题变为核心议题,窗口期正在收窄。
二、白皮书核心内容:精要解读
这一章对白皮书的核心框架进行解读。每个能力域,都给出了配套的国内企业现状和问题的粗略判断。
2.1 为什么 Agent 需要 Zero Trust:五个关键差异
传统软件执行预定义逻辑,行为是确定性的。白皮书识别了 Agent 系统与传统系统的五个本质差异,也是传统安全模型失效的根本原因:
|
差异点 |
安全影响 |
|---|---|
|
无人值守执行 |
被操控的 Agent 能以机器速度造成伤害,没有人工干预窗口 |
|
工具访问(含 MCP) |
被攻破的 MCP 栈可能导致数据窃取、恶意代码执行和系统破坏 |
|
自主决策能力 |
对人类无害的指令可能被 Agent 以完全不同的方式解读执行 |
|
上下文持久化(记忆) |
跨会话的记忆产生新的数据保护需求和攻击面 |
|
多 Agent 协作 |
攻破一个 Agent 可横向移动,到达初始目标无法直接访问的系统 |
2.2 当前最危险的五类 Agent 威胁
以下五类威胁均已有真实案例或经同行评审的学术验证:
|
威胁类型 |
核心风险描述 |
|---|---|
|
提示注入(直接 + 间接) |
间接注入:攻击者把恶意指令嵌入 Agent 会处理的外部数据(网页/邮件),用户永远看不到恶意载荷,Agent 把它当成合法请求执行。来源:Microsoft Research 2024 年研究确认 LLM 无法可靠区分信息性上下文和可执行指令。 |
|
工具和资源滥用 |
工具中毒:已有首个在真实环境发现的恶意 MCP 服务器(来源:安全研究社区,2025 年底),冒充合法邮件服务,暗中复制所有发出邮件。工具链攻击利用合法工具的有害组合,主机端监控无法发现。 |
|
身份与权限滥用(混淆代理人) |
高权限管理 Agent 委派任务时未做最小权限约束,把完整访问上下文传给了本应权限有限的工作 Agent。这是 CWE-441 漏洞(混淆代理人问题)在多 Agent 协作场景下的具体表现,在分层 Agent 架构中会被系统性放大。 |
|
供应链风险 |
Anthropic 内部安全研究(引用自本白皮书):250 个恶意文档就能在 6–130 亿参数 LLM 中植入后门,且后门在标准安全训练(SFT+RLHF)后仍然存在。对依赖第三方模型或微调数据的企业是明确警示。 |
|
记忆投毒(Agent 独有) |
与针对单次会话的提示注入不同,记忆投毒一旦成功,恶意内容跨会话持续存在。因为没有单次明显异常事件,极难被检测。这是传统系统中不存在的新攻击面,目前业界尚无成熟的通用防御方案。 |
2.3 六大能力域解读
白皮书将零信任实施分解为六个能力域,每域有三个成熟度等级(Foundation / Enterprise / Advanced)。以下是精要解读:
能力域一:Agent 身份与认证
白皮书的底线要求:每个 Agent 必须有唯一的、有密码学根基的标识符(如 SPIFFE/SPIRE)。静态 API 密钥和共享服务账户是 AI 辅助攻击者最先找到的东西。
现状问题:国内 Agent 项目中,API Key 硬编码仍然普遍。静态 API 密钥、共享服务账户,白皮书明确称之为「已知缺口」,在攻击者视角下,等同于未加防护。
能力域二:访问控制与权限管理
核心是「最小代理权(Least Agency)」,不只限制用户和系统能访问什么,更要限制每个 Agent 工具能做什么、多频繁、在哪里。Foundation 要求工具白名单默认拒绝;Advanced 要求沙箱执行加受限网络访问。
现状问题:大多数 Agent 权限跟着账号走而非跟着任务走,给一个 Agent「帮忙做客户服务」的模糊权限,是普遍现象。
能力域三:可观测性与审计
白皮书要求优先度量两个指标:驻留时间(异常发生到人类知晓的时长)和覆盖率(实际被调查的告警比例)。大量告警无人调查,等于没有检测能力。
现状问题:大多数企业的 Agent 日志记录的是「有没有调用」,而不是「调用了什么、为什么调用、结果是什么」。驻留时间和覆盖率这两个指标,几乎没有企业在度量。
能力域四:行为监控与响应
最重要的设计原则:自动化事务性工作,不要自动化决策。模型负责证据收集、日志关联、事件时间线整理;而遏制范围确定、是否对外披露,这些关键决策必须由人类做出。
现状问题:这条原则直接回应了业界对 AI 自动化响应的过度乐观。把遏制决策交给模型,本质上是把高权限操作交给一个可能被操控的系统,违背零信任核心前提,在 Agent 场景下是一个结构性风险。
能力域五:输入验证与输出控制
传统输入清洗在 Agent 场景几乎无效,SQL 注入有明确模式可用正则拦截,但 Agent 的输入是自然语言,恶意指令可以伪装成正常请求。白皮书推荐两项有实测数据支撑的技术:
-
Spotlighting(微软开发):通过对输入数据进行特殊标记,使模型能够区分系统指令与外部内容,实测将间接注入攻击成功率从 50%+ 降至约 2%
-
Constitutional Classifiers(Anthropic 开发):在模型推理层添加分类器,实测阻止约 95% 的越狱攻击,误拒率增幅保持在较低水平
现实问题:这两项技术在国内几乎没有落地案例,大多数团队的「防护」仍停留在关键词过滤或系统提示词里加一句「不要执行恶意指令」,这对间接注入攻击毫无防御效果。
能力域六:完整性与恢复
白皮书特别强调「影子 AI」风险:员工在 IT 不知情的情况下使用 LLM 工具,绕过所有技术控制。
现实问题:影子 AI 治理在国内基本是空白。员工用个人账号接入 Claude、GPT、DeepSeek 等各类 AI 工具处理企业数据已经普遍,而 OpenClaw 这类工具的出现让风险进一步升级,员工在个人设备上自行部署后,整个操作链路完全在企业 IT 的视野之外,且 Agent 具备跨会话记忆,一旦接入企业邮件或文件系统,个人信息或企业文件就可能面临泄露或被窃取的风险。这不再只是"员工用了个外部 AI 工具"的合规问题,而是一个企业数据可能被具有自主执行能力的本地 Agent 静默处理的系统性风险。IT 部门既不知道、也没有手段管控,这是当前绕过所有安全控制的最大敞口。
2.4 白皮书的八步实施工作流
除了六大能力域,白皮书还给出了一套八步实施工作流:识别需求、管理供应链风险、定义 Agent 边界、防御提示注入、保护工具访问、保护 Agent 凭证、保护 Agent 记忆、度量关键指标。其价值在于将零信任原则转化为可执行路径,对企业而言可以直接转化为 Agent 上线前的安全评审清单。
▌ 白皮书核心检验标准 / 评估任何安全控制措施时,问一个问题:「这是让攻击变得不可能,还是只是让攻击变得更麻烦?」 / 速率限制、验证码、非标准端口、短信 MFA,这些对 AI 驱动的攻击者而言不构成障碍。AI 可以同时发起成千上万次尝试,每次成本趋近于零,且不会疲倦。拿不准的时候,优先选择移除能力的控制,而不是限流能力的控制。
三、趋势推演:值得重点关注的五个信号
以下五条趋势,是基于白皮书内容、行业共振信号和商业逻辑所做的推演判断。
趋势一:Agent 安全将催生新的垂直市场
▌ 趋势一 / 事实依据 / 当前,Agent 身份管理、记忆审计、行为基线建立等能力,在市场上几乎没有成熟的商业产品覆盖。这与 2012–2014 年 EDR(端点检测与响应)出现前的市场格局高度相似:安全事件驱动需求,但产品供给尚未跟上。EDR 市场在 CrowdStrike、Carbon Black 等公司出现后的五年内从几乎为零增长到数十亿美元规模;驱动因素是安全事故的公开化和合规要求的落地。Agent 安全领域当前正处于类似的早期阶段,两个条件已经具备:需求(安全事故正在发生)和监管压力(行业框架密集发布)。 / 作者判断 / 国内市场对这个细分方向的产品化几乎空白。对于有安全产品布局的企业,这是一个建仓窗口。预期率先出现的产品形态包括:Agent 身份管理平台、Agent 行为监控与异常检测,以及 AI-BOM(AI 物料清单)管理工具。
趋势二:Agent 安全合规将成为采购门槛,而非加分项
▌ 趋势二 / 事实依据 / EU AI Act、FedRAMP、HIPAA、FINRA、GDPR 的要求已经明确写入多个行业安全框架。美国政府于 2025 年底发布的 AI 安全行政令要求联邦机构在 2026 年底前完成 AI 安全评估,这一要求正在通过供应链向私营部门传导。合规要求的传导路径通常是:监管文件发布(已发生)→ 大型企业内部合规要求形成(进行中)→ 纳入供应商评估标准 → 成为中小型客户的采购前提。国内的传导路径预期会有几个月的滞后,但方向一致。 / 作者判断 / 对正在做 ToB AI 产品或企业 Agent 部署服务的团队而言,现在是建立合规能力的最低成本时机。等客户开始问这个问题再准备,已经来不及。
趋势三:「Agent 安全」交叉人才将面临明显供需缺口
▌ 趋势三 / 事实依据 / 当前,能够同时理解 Agent 自主性设计、零信任架构和 MCP 协议的工程师极为稀少。传统安全工程师不熟悉 Agent 协作模型;AI 工程师不熟悉密码学身份和访问控制设计。这个交叉能力在现有岗位描述中几乎不存在。历史先例:GDPR 落地(2018 年)后,隐私工程师(Privacy Engineer)这一岗位在两年内从几乎不存在变为大型科技企业的标配,薪资出现明显跳升。类似的结构性人才需求,通常由合规截止日期和公开安全事故共同触发。安全行业在重大事件(如 2017 年 WannaCry)后确实观察到了安全岗位需求的阶段性快速增长,Agent 安全工程师这一细分方向预期会经历类似的结构性重估,但具体幅度难以预测。 / 作者判断 / 对于 AI 工程师,补零信任知识是当前投入产出比较高的能力建设方向。对于传统安全工程师,理解 Agent 自主性和 MCP 协议是差异化方向。
趋势四:多 Agent 协作的信任模型将重新定义 IAM 领域
▌ 趋势四 / 事实依据 / 传统 IAM(身份与访问管理)解决的是「人-系统」或「系统-系统」的信任问题,经过几十年演化已有成熟方案。但「Agent 验证 Agent」,即在多 Agent 协作中每一层委派都需要独立的身份验证和权限边界,是传统 IAM 架构从未真正解决过的问题。Okta、CyberArk 等 IAM 厂商已公开表示正在研究 Agent 身份方向。白皮书指出的混淆代理人问题(CWE-441)在多 Agent 协作中会被放大:低权限 Agent 欺骗高权限 Agent 执行超越授权的操作。当 Agent 常规性地相互委派任务时,现有的 RBAC(基于角色的访问控制)模型在架构层面不够用,需要基于任务的动态权限(Task-Scoped Permissions)和 ABAC(基于属性的访问控制)。 / 作者判断 / 这是 IAM 领域近年来最重要的架构范式更新之一。国内做身份安全产品的团队,应当将 Agent 身份纳入产品路线图的优先讨论范围。
趋势五:「安全即竞争力」的认知将在事故触发后快速完成市场教育
▌ 趋势五 / 事实依据 / 当前,大多数企业决策者对 Agent 安全的认知停留在「这是 IT 合规的事」。IBM《2025 年数据泄露成本报告》显示,AI 应用层面的数据泄露平均成本高于传统数据泄露,且 97% 的事发方在事前没有部署 AI 访问控制;NIST 1-10-100 规则表明,设计阶段修复成本为 1,测试阶段为 10,生产环境事后修复为 100。认知重塑通常需要三类事件共同发生:首批公开的行业安全事故(记忆投毒、工具链攻击导致的数据泄露);大型客户将 Agent 安全合规纳入招标条件;监管机构对 AI Agent 的专项检查启动。这三类事件本身的发生概率较高,分歧在于时间节点。 / 作者判断 / Agent 场景因涉及数据泄露赔偿、合规处罚和声誉损失,综合成本结构只会更重。一次中等规模的 Agent 安全事故,善后成本大概率超过一个完整安全架构的建设投入。率先建立安全能力的企业,将获得更快的从实验到生产的部署速度、在受监管行业的准入优势,以及更低的事故善后成本。
四、企业行动:按角色分层的具体建议
决策层需要做的判断只有三个:这件事现在要不要推、谁来负责、第一步批什么。以下按角色分层展开:
4.1 业务 / 产品线负责人
一个 Agent 的「爆炸半径」决定了它需要多严格的安全设计。
|
问题 |
业务负责人应当能回答的内容 |
|---|---|
|
这个 Agent 能访问什么? |
明确工具清单、数据范围、能否发起外部请求 |
|
什么情况下应该停下来等人审批? |
定义升级触发器:金额阈值、数据分级、影响范围 |
|
出了问题,爆炸半径是什么? |
识别最坏情况:数据泄露量、可影响的系统范围、恢复所需时间 |
|
谁对这个 Agent 的行为负责? |
指定具名负责人,避免「大家都管等于没人管」 |
▌ 给业务负责人 / 最重要的一条:暂停 Agent 部署的条件,应该写进需求文档,而不是留给工程师临时判断。
4.2 技术负责人
以下优先级建议基于国内企业典型现状:
|
优先级 |
技术方向与具体行动 |
|---|---|
|
P0(立即启动) |
Agent 身份管理:废弃静态 API 密钥,评估 SPIFFE/SPIRE 等密码学身份方案;建立 Agent 注册表,记录每个 Agent 的职责、权限和负责人 |
|
P1(近期推进) |
工具白名单 + 最小权限:默认拒绝 + 工具级别能力限制(邮件工具只读,发送单独授权);对处理不可信输入的 Agent 评估沙箱方案 |
|
P2(中期建设) |
可观测性基础:建立完整的 Agent 行为日志;度量驻留时间和覆盖率两个核心指标;接入 OpenTelemetry 实现跨系统链路追踪 |
|
P3(持续深化) |
高级防护:评估 Spotlighting 技术用于间接注入防护;建立记忆隔离和完整性验证机制;为高风险工具调用建立人工审批流 |
▌ 给技术负责人 / 对于正在做企业 AI 部署服务(如医疗、金融行业项目)的团队:P0 和 P1 应当作为标准交付物,而非可选项。客户侧的合规压力大概率在近期就会要求有解决方案。
4.3 战略层
这份白皮书对战略层的参考价值,不在于技术细节,而在于时机判断:
当前几乎所有 AI 产品都在比拼能力(更快、更准、更聪明)。能力趋于同质化是大模型快速迭代的必然结果;当能力差距收窄,可信赖性将成为下一个主要差异化维度,而可信赖性最核心的可量化指标,就是安全合规能力。最先能在客户评估中拿出 Agent 安全证明的团队,将在受监管行业占据先发优势。
|
战略问题 |
建议的思考框架 |
|---|---|
|
我们做的 Agent 产品,目标客户在受监管行业吗? |
如果是(金融/医疗/政务),Agent 安全合规大概率是准入条件,不是加分项 |
|
我们的客户会把「Agent 安全」作为评估标准吗? |
头部客户已经在问,中型客户大概率在近期内跟上,销售团队需要有答案 |
|
内部的影子 AI 风险有多大? |
员工在 IT 不知情情况下使用 LLM 工具是绕过所有控制的最大风险源,需要专项治理 |
|
安全投入的 ROI 如何计算? |
参考 NIST 1-10-100 规则:事后修复的综合成本(泄露赔偿 + 合规处罚 + 声誉损失)通常是事前建设的数倍至十倍 |
五、对中国企业的特别分析
白皮书的价值对中国企业而言不在于照搬,而在于四个层面的适配分析:
5.1 国内监管已经启动:监管现状与合规对应
在讨论如何适配零信任框架之前,有一个前提需要先说清楚:国内的 Agent 监管不是"即将到来",而是已经落地。2026 年 5 月 8 日,国家网信办、国家发改委、工信部联合印发《智能体规范应用与创新发展实施意见》,这是国家层面第一次将智能体 Agent 作为独立治理对象,系统性建立产业部署和治理框架。时间上与 Anthropic 白皮书发布仅差 19 天,两份文件从不同方向指向同一个结论:Agent 的行为治理窗口正式开启。
这份文件最值得关注的,是监管逻辑的根本性转变。过去几年的监管核心是"大模型服务",重点是模型是否备案、生成内容是否合规。但这份文件把治理对象换成了"智能体":具备自主感知、记忆、决策、交互与执行能力的智能系统。背后的逻辑是:当 AI 从"说话"走向"做事",治理就必须从内容治理升级为行为治理。智能体的风险不再只发生在输出端,而是发生在工具调用、权限执行、多智能体协同的整个链路里。
在合规方向上,文件明确要求智能体"有标准、有身份、有权限、有评测、有追溯",安全可控被放在首位,重点行业和敏感场景将走更强监管。配套的法律层面也已到位:新修订的《网络安全法》已于 2026 年 1 月 1 日正式施行,将人工智能安全框架正式嵌入法律,要求 AI 服务提供者建立安全事件响应机制,对造成特别严重危害的行为,罚款上限提至一千万元。
这些要求与零信任框架如何对应? 中国数据安全法(DSL)、网络安全法(CSL)、等保 2.0、个人信息保护法(PIPL)已经从不同角度覆盖了零信任的核心要求:访问控制、审计追踪、数据分类分级、最小权限原则。白皮书提出的六大能力域,与等保 2.0 的安全通信网络、安全区域边界、安全计算环境等控制项形成直接对应关系。而《实施意见》要求的"有身份、有权限、有评测、有追溯",与白皮书六大能力域在底层逻辑上几乎是同一套语言的不同表述。
实操建议: 构建 Agent 安全架构时,可以将零信任框架作为技术架构基础,等保 2.0 + DSL + 《实施意见》的合规要求作为验收标准,两套体系不冲突,零信任框架往往能超额满足等保要求,同时天然覆盖《实施意见》提出的身份、权限和追溯要求。对企业来说,这意味着不需要为每套合规要求单独建设,一套架构可以同时应对多个检查口径。
5.2 使用和微调大模型的供应链风险
对于使用国产大模型、或者在基础模型上做过微调的企业,白皮书的供应链风险分析有一层额外的含义:用的模型本身,也可能是攻击入口。
白皮书引用 Anthropic 安全研究指出,只需 250 个精心构造的恶意文档,就能在大模型中植入行为后门,且这个后门在经过标准的安全对齐训练(SFT + RLHF)之后依然存在。换句话说,如果微调数据的来源没有经过严格审查,模型的安全性就无法保证:即便后续做了再多的安全训练,也可能补不回来。
基于此,有三件事值得纳入企业 AI 治理的基本动作清单:
管好微调数据的来源:数据从哪来、经过哪些处理、有没有引入不可信的第三方内容,要有明确的记录和审查机制
对第三方 MCP 服务器保持谨慎:尽量企业自行托管,代码验证通过后再上线,不要直接使用来路不明的公开 MCP 服务
建立 AI-BOM(AI 物料清单):就像软件有 SCA 扫描一样,AI 系统也需要一份清单,记录用的是哪个模型、基于什么数据训练、做过哪些微调,出了问题,能追溯到根
5.3 国内企业 Agent 部署的典型安全盲区
基于在多个企业 AI 部署项目中的观察:
-
API Key 硬编码:在代码仓库或配置文件中明文存储 API 密钥,在接触过的项目中极为普遍
-
权限跟账号走而非任务走:给 Agent 使用一个有广泛权限的企业服务账号,没有针对任务的动态权限设计
-
无 Agent 注册表:不知道企业内部有哪些 Agent 在运行、各自有什么权限、出了问题找谁
-
影子 AI 完全不设防:员工使用各类 AI 工具接入企业数据,IT 部门完全不掌握
-
记忆/上下文保留无限期:Agent 的会话上下文没有 TTL 机制,被投毒内容可以无限期驻留
5.4 对企业 AI 部署服务团队的参考
当前阶段,客户对 Agent 安全的认知大多还处于「还没想到」的阶段,而不是「想到了但觉得贵」。这意味着现在主动提出安全架构方案的服务商,可以以较低的增量成本建立差异化;一旦第一批安全事故发生,这个能力将从加分项变为门槛。
▌ 给企业 AI 服务团队 / 建议将「Agent 安全架构设计」作为企业 AI 部署服务的标准模块,包括 Agent 注册表、最小权限设计、审计日志三件套。这不需要等待完整的零信任基础设施,Foundation 级别的能力就足以在客户评估中建立信任优势。
六、总结与展望
Anthropic 的《Zero Trust for AI Agents》白皮书,标志着 AI 安全讨论从「模型安全」进入「系统安全」的新阶段。它不是在讨论模型会不会产生幻觉,而是在讨论当 Agent 拥有工具、权限、记忆、自主决策能力时,企业如何确保这些能力不会被滥用或被攻击者利用。
结合行业共振信号和商业逻辑,以下是值得重点关注的五个趋势信号(参考窗口而非确定性预测):
|
趋势 |
参考窗口 |
|---|---|
|
Agent 安全垂直市场形成,出现首批专注产品 |
短期内 |
|
大型企业客户将 Agent 安全合规纳入采购评估标准 |
短期至中期 |
|
Agent 安全交叉人才供需缺口显现,岗位溢价出现 |
中期 |
|
首批公开 Agent 安全事故触发行业教育,完成决策层认知重塑 |
中期 |
|
国内监管机构推出 AI Agent 专项安全要求或检查 |
中期至长期 |
▌ 最终判断 / 现在是建立 Agent 安全能力成本最低的时机,不是因为合规要求,而是因为这将影响企业在 AI 时代的竞争位置。安全合规要求在形成后,通常沿着「监管 → 头部企业采购标准 → 行业门槛」的路径传导。行业框架密集发布表明传导过程已经启动。
参考文献
-
Anthropic, "Zero Trust for AI Agents", May 2026. https://claude.com/blog/zero-trust-for-ai-agents
2. Anthropic, "Project Glasswing: An initial update", May 22, 2026. https://www.anthropic.com/research/glasswing-initial-update
3. NIST, "SP 800-207: Zero Trust Architecture", August 2020. https://csrc.nist.gov/pubs/sp/800/207/final
4. IBM, "Cost of a Data Breach Report 2025". https://www.ibm.com/security/data-breach
5. OWASP, "Top 10 for Agentic Applications for 2026", December 2025. https://genai.owasp.org/resource/owasp-top-10-for-agentic-applications-for-2026/
6. Microsoft, "New tools and guidance: Announcing Zero Trust for AI", March 19, 2026. https://www.microsoft.com/en-us/security/blog/2026/03/19/
7. Microsoft Research, "Prompt Injection Attacks and Defenses in LLM-Integrated Applications", 2024.
8. Cisco, "Zero Trust for Agentic AI", March 23, 2026. https://www.cisco.com/c/en/us/solutions/collateral/artificial-intelligence/
9. CSA, "The Agentic Trust Framework", February 2, 2026. https://cloudsecurityalliance.org/blog/2026/02/02/
10. Gartner, "AI Predictions 2025". https://www.gartner.com/en/articles/gartner-top-10-strategic-technology-trends-for-2025
11. NIST, "1-10-100 Rule in Cybersecurity Cost Analysis". Referenced in SP 800 series guidelines.
更多推荐

所有评论(0)