AI Agent 安全治理的分水岭已到来

神州问学

4人浏览 · 2026-07-03 10:00:50

神州问学 · 2026-07-03 10:00:50 发布

本报告做三件事

① 热点解读 / 这份白皮书说了什么，为什么在此时发布

② 趋势推演 / 它预示着行业未来哪些结构性变化

③ 企业行动 / 不同角色的人应该如何把它转化为具体动作

基于 Anthropic《Zero Trust for AI Agents》白皮书（2026.05.27 发布）

核心摘要

发生了什么

2026 年 5 月，Anthropic 发布《Zero Trust for AI Agents》白皮书，这是目前业界最系统、最可落地的 AI Agent 安全实施框架。它并非孤立事件：Microsoft、Cisco、OWASP、CSA、NSA 在半年内密集发布同类框架，五大机构不约而同指向相同的核心原则。当全球顶级安全机构和头部科技企业同时往一个方向走，这种共振通常预示着行业基线的系统性切换，而不是某一家的市场营销动作。AI Agent 安全的行业基线正在被系统性抬高，且这个过程不可逆。

为什么重要

Agent 安全与传统软件安全的差异不是程度问题，是范式问题。无人值守执行、跨会话记忆、多 Agent 协作，这三点让传统的访问控制和日志审计几乎失效。IBM《2025 年数据泄露成本报告》显示，13% 的组织已报告 AI 应用层面的数据泄露，其中 97% 在事发时没有部署任何 AI 访问控制。白皮书将密码学身份标识、短命 token、基于身份的网络隔离列为基础级（Foundation）要求，这是三级成熟度的最低档。这意味着大多数企业在过去认为「还行」的安全做法，在这套框架下连入门级都达不到，需要重新校准认知

对企业意味着什么

两类企业面临直接压力。一是在受监管行业（金融/医疗/政务）部署 Agent 的团队：合规门槛大概率在短期内从无到有，先建能力的团队将拿到入场券，后建的团队将面临整改压力。参照 GDPR 落地的历史路径，从监管文件发布到供应商合规要求形成，通常只有 12–18 个月的窗口；国内等保 2.0 落地时，部分行业从标准发布到检查启动不足一年。《智能体规范应用与创新发展实施意见》已于 2026 年 5 月发布，窗口期已经开始计时。二是内部已有 Agent 在跑的企业：当前的权限设计和日志能力，几乎无法应对一次有针对性的攻击，且攻击者的能力正在被 AI 以数量级方式提升。安全行业的经验规律（NIST「1-10-100 规则」及 IBM 历年研究）表明，事后修复的综合成本通常是事前建设的数倍至十倍。综合来看，现在建立安全能力是成本最低的时机，随着合规要求落地和事故公开，窗口期正在收窄。

值得持续跟踪的五个信号

以下几类信息值得定期追踪，一旦出现，意味着窗口期正在快速收窄：第一，国内头部金融、医疗、政务类客户是否开始在招标文件中出现 AI Agent 安全相关条款，这是合规门槛从讨论变为硬性要求的最早信号；第二，是否有公开的 Agent 安全事故报告持续出现，尤其是涉及提示注入、工具链攻击或记忆投毒的案例，每一起公开事故都会加速决策层的认知重塑；第三，OWASP、NIST、CSA 等机构是否发布新版 Agent 安全标准或更新评估框架，这类文件通常是采购标准和合规要求的前身；第四，国内信通院、网信办等机构是否启动 AI Agent 相关的标准制定或安全检查。一旦立项，留给企业的准备窗口通常只有一到两个发版周期；第五，SPIFFE/SPIRE、Spotlighting、AI-BOM 等技术方向是否出现成熟的国产替代或开源实现，这是判断技术选型时机是否成熟的重要参考。

四个风险信号

以下四个维度，是判断当前 Agent 部署安全状况的基本参照：Agent 是否具备密码学身份，还是仍在使用静态 API Key；出现异常时，从发生到知晓需要多长时间；单个 Agent 的最大影响范围是否有人能清晰描述；每个 Agent 的行为是否有具名责任人。任何一项无法明确回答，均指向可被利用的安全缺口。

一、背景：为什么这份白皮书在此时发布

1.1 攻防格局发生了质变

Anthropic 在白皮书开篇提出一个关键判断：前沿 AI 模型正在将漏洞发现到武器化利用的时间窗口从数月压缩至数小时，且边际成本趋近于零。这不是预测，是已发生的事实。2026 年 4 月，Anthropic 发布 Project Glasswing 计划，联合 AWS、Apple、Google、Microsoft、NVIDIA 等合作伙伴，利用 Claude Mythos Preview 扫描关键软件系统。Anthropic 官方称，该模型已发现数千个高危漏洞，覆盖主流操作系统和浏览器；项目启动约一个月后，合作伙伴累计发现超过 10,000 个高危或严重级别漏洞。该案例充分说明，AI 正在将安全漏洞发现能力推向新的数量级。（来源：Anthropic Project Glasswing 初步报告，2026.05.22）

▌ 作者判断 / 攻击者和防御者将同时获得 AI 赋能。率先建立防御体系的一方，将获得结构性优势；滞后的一方，将面临能力不对称的攻击压力。这不是「如果」的问题，而是「何时」的问题。

1.2 Agent 从实验走向生产，安全能力严重滞后

IBM《2025 年数据泄露成本报告》显示，13% 的组织报告了 AI 模型或应用层面的数据泄露，其中 97% 在事发时未部署 AI 访问控制。Gartner 预测到 2026 年底，40% 的企业应用将与任务特定的 AI Agent 集成。Agent 部署速度与安全能力建设速度之间存在明显的时间差。越来越多的企业在安全框架尚未就位的情况下，已将 Agent 接入生产环境并赋予了实质性的数据访问权限。

▌ 作者判断 / 这个时间差本身是当前最大的风险敞口。不是因为 Agent 技术不成熟，而是因为安全配套能力系统性滞后于部署速度。

1.3 行业安全框架密集发布：这是共振，不是巧合

以下是近半年内 Agent 安全框架和指南的密集发布情况：

发布方 / 时间	框架名称与核心内容
OWASP（2025.12）	Top 10 for Agentic Applications 2026：首次系统定义 Agent 系统十大安全风险，包括目标劫持、工具滥用、身份与权限滥用等
CSA 云安全联盟（2026.02）	Agentic Trust Framework（ATF）：首个专门针对自主 AI Agent 的开放治理规范
Microsoft（2026.03）	Zero Trust for AI（ZT4AI）：AI 安全参考架构 + 评估工具 + 五项实践指南，将零信任原则扩展到 AI 全生命周期
Cisco（2026.03）	Zero Trust for Agentic AI：聚焦身份、访问和行为三个维度的实时治理
NSA（2026.01）	零信任实施指南（ZIGs）：为美国国防体系的零信任落地提供分阶段操作指引
Anthropic（2026.05）	Zero Trust for AI Agents：六大能力域 + 三级成熟度 + 八步工作流，当前业界最系统可操作的 Agent 安全框架

▌ 作者判断 / 六个独立机构在六个月内发布同类框架，这种密度在安全行业极为罕见。当全球安全机构和主要科技企业同步往同一方向推进，历史经验表明这通常预示着合规要求和客户评估标准的系统性切换。Agent 安全已从边缘议题变为核心议题，窗口期正在收窄。

二、白皮书核心内容：精要解读

这一章对白皮书的核心框架进行解读。每个能力域，都给出了配套的国内企业现状和问题的粗略判断。

2.1 为什么 Agent 需要 Zero Trust：五个关键差异

传统软件执行预定义逻辑，行为是确定性的。白皮书识别了 Agent 系统与传统系统的五个本质差异，也是传统安全模型失效的根本原因：

差异点	安全影响
无人值守执行	被操控的 Agent 能以机器速度造成伤害，没有人工干预窗口
工具访问（含 MCP）	被攻破的 MCP 栈可能导致数据窃取、恶意代码执行和系统破坏
自主决策能力	对人类无害的指令可能被 Agent 以完全不同的方式解读执行
上下文持久化（记忆）	跨会话的记忆产生新的数据保护需求和攻击面
多 Agent 协作	攻破一个 Agent 可横向移动，到达初始目标无法直接访问的系统

2.2 当前最危险的五类 Agent 威胁

以下五类威胁均已有真实案例或经同行评审的学术验证：

威胁类型	核心风险描述
提示注入（直接 + 间接）	间接注入：攻击者把恶意指令嵌入 Agent 会处理的外部数据（网页/邮件），用户永远看不到恶意载荷，Agent 把它当成合法请求执行。来源：Microsoft Research 2024 年研究确认 LLM 无法可靠区分信息性上下文和可执行指令。
工具和资源滥用	工具中毒：已有首个在真实环境发现的恶意 MCP 服务器（来源：安全研究社区，2025 年底），冒充合法邮件服务，暗中复制所有发出邮件。工具链攻击利用合法工具的有害组合，主机端监控无法发现。
身份与权限滥用（混淆代理人）	高权限管理 Agent 委派任务时未做最小权限约束，把完整访问上下文传给了本应权限有限的工作 Agent。这是 CWE-441 漏洞（混淆代理人问题）在多 Agent 协作场景下的具体表现，在分层 Agent 架构中会被系统性放大。
供应链风险	Anthropic 内部安全研究（引用自本白皮书）：250 个恶意文档就能在 6–130 亿参数 LLM 中植入后门，且后门在标准安全训练（SFT+RLHF）后仍然存在。对依赖第三方模型或微调数据的企业是明确警示。
记忆投毒（Agent 独有）	与针对单次会话的提示注入不同，记忆投毒一旦成功，恶意内容跨会话持续存在。因为没有单次明显异常事件，极难被检测。这是传统系统中不存在的新攻击面，目前业界尚无成熟的通用防御方案。

2.3 六大能力域解读

白皮书将零信任实施分解为六个能力域，每域有三个成熟度等级（Foundation / Enterprise / Advanced）。以下是精要解读：

能力域一：Agent 身份与认证

白皮书的底线要求：每个 Agent 必须有唯一的、有密码学根基的标识符（如 SPIFFE/SPIRE）。静态 API 密钥和共享服务账户是 AI 辅助攻击者最先找到的东西。

现状问题：国内 Agent 项目中，API Key 硬编码仍然普遍。静态 API 密钥、共享服务账户，白皮书明确称之为「已知缺口」，在攻击者视角下，等同于未加防护。

能力域二：访问控制与权限管理

核心是「最小代理权（Least Agency）」，不只限制用户和系统能访问什么，更要限制每个 Agent 工具能做什么、多频繁、在哪里。Foundation 要求工具白名单默认拒绝；Advanced 要求沙箱执行加受限网络访问。

现状问题：大多数 Agent 权限跟着账号走而非跟着任务走，给一个 Agent「帮忙做客户服务」的模糊权限，是普遍现象。

能力域三：可观测性与审计

白皮书要求优先度量两个指标：驻留时间（异常发生到人类知晓的时长）和覆盖率（实际被调查的告警比例）。大量告警无人调查，等于没有检测能力。

现状问题：大多数企业的 Agent 日志记录的是「有没有调用」，而不是「调用了什么、为什么调用、结果是什么」。驻留时间和覆盖率这两个指标，几乎没有企业在度量。

能力域四：行为监控与响应

最重要的设计原则：自动化事务性工作，不要自动化决策。模型负责证据收集、日志关联、事件时间线整理；而遏制范围确定、是否对外披露，这些关键决策必须由人类做出。

现状问题：这条原则直接回应了业界对 AI 自动化响应的过度乐观。把遏制决策交给模型，本质上是把高权限操作交给一个可能被操控的系统，违背零信任核心前提，在 Agent 场景下是一个结构性风险。

能力域五：输入验证与输出控制

传统输入清洗在 Agent 场景几乎无效，SQL 注入有明确模式可用正则拦截，但 Agent 的输入是自然语言，恶意指令可以伪装成正常请求。白皮书推荐两项有实测数据支撑的技术：

Spotlighting（微软开发）：通过对输入数据进行特殊标记，使模型能够区分系统指令与外部内容，实测将间接注入攻击成功率从 50%+ 降至约 2%

Constitutional Classifiers（Anthropic 开发）：在模型推理层添加分类器，实测阻止约 95% 的越狱攻击，误拒率增幅保持在较低水平

现实问题：这两项技术在国内几乎没有落地案例，大多数团队的「防护」仍停留在关键词过滤或系统提示词里加一句「不要执行恶意指令」，这对间接注入攻击毫无防御效果。

能力域六：完整性与恢复

白皮书特别强调「影子 AI」风险：员工在 IT 不知情的情况下使用 LLM 工具，绕过所有技术控制。

现实问题：影子 AI 治理在国内基本是空白。员工用个人账号接入 Claude、GPT、DeepSeek 等各类 AI 工具处理企业数据已经普遍，而 OpenClaw 这类工具的出现让风险进一步升级，员工在个人设备上自行部署后，整个操作链路完全在企业 IT 的视野之外，且 Agent 具备跨会话记忆，一旦接入企业邮件或文件系统，个人信息或企业文件就可能面临泄露或被窃取的风险。这不再只是"员工用了个外部 AI 工具"的合规问题，而是一个企业数据可能被具有自主执行能力的本地 Agent 静默处理的系统性风险。IT 部门既不知道、也没有手段管控，这是当前绕过所有安全控制的最大敞口。

2.4 白皮书的八步实施工作流

除了六大能力域，白皮书还给出了一套八步实施工作流：识别需求、管理供应链风险、定义 Agent 边界、防御提示注入、保护工具访问、保护 Agent 凭证、保护 Agent 记忆、度量关键指标。其价值在于将零信任原则转化为可执行路径，对企业而言可以直接转化为 Agent 上线前的安全评审清单。

▌ 白皮书核心检验标准 / 评估任何安全控制措施时，问一个问题：「这是让攻击变得不可能，还是只是让攻击变得更麻烦？」 / 速率限制、验证码、非标准端口、短信 MFA，这些对 AI 驱动的攻击者而言不构成障碍。AI 可以同时发起成千上万次尝试，每次成本趋近于零，且不会疲倦。拿不准的时候，优先选择移除能力的控制，而不是限流能力的控制。

三、趋势推演：值得重点关注的五个信号

以下五条趋势，是基于白皮书内容、行业共振信号和商业逻辑所做的推演判断。

趋势一：Agent 安全将催生新的垂直市场

▌ 趋势一 / 事实依据 / 当前，Agent 身份管理、记忆审计、行为基线建立等能力，在市场上几乎没有成熟的商业产品覆盖。这与 2012–2014 年 EDR（端点检测与响应）出现前的市场格局高度相似：安全事件驱动需求，但产品供给尚未跟上。EDR 市场在 CrowdStrike、Carbon Black 等公司出现后的五年内从几乎为零增长到数十亿美元规模；驱动因素是安全事故的公开化和合规要求的落地。Agent 安全领域当前正处于类似的早期阶段，两个条件已经具备：需求（安全事故正在发生）和监管压力（行业框架密集发布）。 / 作者判断 / 国内市场对这个细分方向的产品化几乎空白。对于有安全产品布局的企业，这是一个建仓窗口。预期率先出现的产品形态包括：Agent 身份管理平台、Agent 行为监控与异常检测，以及 AI-BOM（AI 物料清单）管理工具。

趋势二：Agent 安全合规将成为采购门槛，而非加分项

▌ 趋势二 / 事实依据 / EU AI Act、FedRAMP、HIPAA、FINRA、GDPR 的要求已经明确写入多个行业安全框架。美国政府于 2025 年底发布的 AI 安全行政令要求联邦机构在 2026 年底前完成 AI 安全评估，这一要求正在通过供应链向私营部门传导。合规要求的传导路径通常是：监管文件发布（已发生）→ 大型企业内部合规要求形成（进行中）→ 纳入供应商评估标准 → 成为中小型客户的采购前提。国内的传导路径预期会有几个月的滞后，但方向一致。 / 作者判断 / 对正在做 ToB AI 产品或企业 Agent 部署服务的团队而言，现在是建立合规能力的最低成本时机。等客户开始问这个问题再准备，已经来不及。

趋势三：「Agent 安全」交叉人才将面临明显供需缺口

▌ 趋势三 / 事实依据 / 当前，能够同时理解 Agent 自主性设计、零信任架构和 MCP 协议的工程师极为稀少。传统安全工程师不熟悉 Agent 协作模型；AI 工程师不熟悉密码学身份和访问控制设计。这个交叉能力在现有岗位描述中几乎不存在。历史先例：GDPR 落地（2018 年）后，隐私工程师（Privacy Engineer）这一岗位在两年内从几乎不存在变为大型科技企业的标配，薪资出现明显跳升。类似的结构性人才需求，通常由合规截止日期和公开安全事故共同触发。安全行业在重大事件（如 2017 年 WannaCry）后确实观察到了安全岗位需求的阶段性快速增长，Agent 安全工程师这一细分方向预期会经历类似的结构性重估，但具体幅度难以预测。 / 作者判断 / 对于 AI 工程师，补零信任知识是当前投入产出比较高的能力建设方向。对于传统安全工程师，理解 Agent 自主性和 MCP 协议是差异化方向。

趋势四：多 Agent 协作的信任模型将重新定义 IAM 领域

▌ 趋势四 / 事实依据 / 传统 IAM（身份与访问管理）解决的是「人-系统」或「系统-系统」的信任问题，经过几十年演化已有成熟方案。但「Agent 验证 Agent」，即在多 Agent 协作中每一层委派都需要独立的身份验证和权限边界，是传统 IAM 架构从未真正解决过的问题。Okta、CyberArk 等 IAM 厂商已公开表示正在研究 Agent 身份方向。白皮书指出的混淆代理人问题（CWE-441）在多 Agent 协作中会被放大：低权限 Agent 欺骗高权限 Agent 执行超越授权的操作。当 Agent 常规性地相互委派任务时，现有的 RBAC（基于角色的访问控制）模型在架构层面不够用，需要基于任务的动态权限（Task-Scoped Permissions）和 ABAC（基于属性的访问控制）。 / 作者判断 / 这是 IAM 领域近年来最重要的架构范式更新之一。国内做身份安全产品的团队，应当将 Agent 身份纳入产品路线图的优先讨论范围。

趋势五：「安全即竞争力」的认知将在事故触发后快速完成市场教育

▌ 趋势五 / 事实依据 / 当前，大多数企业决策者对 Agent 安全的认知停留在「这是 IT 合规的事」。IBM《2025 年数据泄露成本报告》显示，AI 应用层面的数据泄露平均成本高于传统数据泄露，且 97% 的事发方在事前没有部署 AI 访问控制；NIST 1-10-100 规则表明，设计阶段修复成本为 1，测试阶段为 10，生产环境事后修复为 100。认知重塑通常需要三类事件共同发生：首批公开的行业安全事故（记忆投毒、工具链攻击导致的数据泄露）；大型客户将 Agent 安全合规纳入招标条件；监管机构对 AI Agent 的专项检查启动。这三类事件本身的发生概率较高，分歧在于时间节点。 / 作者判断 / Agent 场景因涉及数据泄露赔偿、合规处罚和声誉损失，综合成本结构只会更重。一次中等规模的 Agent 安全事故，善后成本大概率超过一个完整安全架构的建设投入。率先建立安全能力的企业，将获得更快的从实验到生产的部署速度、在受监管行业的准入优势，以及更低的事故善后成本。

四、企业行动：按角色分层的具体建议

决策层需要做的判断只有三个：这件事现在要不要推、谁来负责、第一步批什么。以下按角色分层展开：

4.1 业务 / 产品线负责人

一个 Agent 的「爆炸半径」决定了它需要多严格的安全设计。

问题	业务负责人应当能回答的内容
这个 Agent 能访问什么？	明确工具清单、数据范围、能否发起外部请求
什么情况下应该停下来等人审批？	定义升级触发器：金额阈值、数据分级、影响范围
出了问题，爆炸半径是什么？	识别最坏情况：数据泄露量、可影响的系统范围、恢复所需时间
谁对这个 Agent 的行为负责？	指定具名负责人，避免「大家都管等于没人管」

▌ 给业务负责人 / 最重要的一条：暂停 Agent 部署的条件，应该写进需求文档，而不是留给工程师临时判断。

4.2 技术负责人

以下优先级建议基于国内企业典型现状：

优先级	技术方向与具体行动
P0（立即启动）	Agent 身份管理：废弃静态 API 密钥，评估 SPIFFE/SPIRE 等密码学身份方案；建立 Agent 注册表，记录每个 Agent 的职责、权限和负责人
P1（近期推进）	工具白名单 + 最小权限：默认拒绝 + 工具级别能力限制（邮件工具只读，发送单独授权）；对处理不可信输入的 Agent 评估沙箱方案
P2（中期建设）	可观测性基础：建立完整的 Agent 行为日志；度量驻留时间和覆盖率两个核心指标；接入 OpenTelemetry 实现跨系统链路追踪
P3（持续深化）	高级防护：评估 Spotlighting 技术用于间接注入防护；建立记忆隔离和完整性验证机制；为高风险工具调用建立人工审批流

▌ 给技术负责人 / 对于正在做企业 AI 部署服务（如医疗、金融行业项目）的团队：P0 和 P1 应当作为标准交付物，而非可选项。客户侧的合规压力大概率在近期就会要求有解决方案。

4.3 战略层

这份白皮书对战略层的参考价值，不在于技术细节，而在于时机判断：

当前几乎所有 AI 产品都在比拼能力（更快、更准、更聪明）。能力趋于同质化是大模型快速迭代的必然结果；当能力差距收窄，可信赖性将成为下一个主要差异化维度，而可信赖性最核心的可量化指标，就是安全合规能力。最先能在客户评估中拿出 Agent 安全证明的团队，将在受监管行业占据先发优势。

战略问题	建议的思考框架
我们做的 Agent 产品，目标客户在受监管行业吗？	如果是（金融/医疗/政务），Agent 安全合规大概率是准入条件，不是加分项
我们的客户会把「Agent 安全」作为评估标准吗？	头部客户已经在问，中型客户大概率在近期内跟上，销售团队需要有答案
内部的影子 AI 风险有多大？	员工在 IT 不知情情况下使用 LLM 工具是绕过所有控制的最大风险源，需要专项治理
安全投入的 ROI 如何计算？	参考 NIST 1-10-100 规则：事后修复的综合成本（泄露赔偿 + 合规处罚 + 声誉损失）通常是事前建设的数倍至十倍

五、对中国企业的特别分析

白皮书的价值对中国企业而言不在于照搬，而在于四个层面的适配分析：

5.1 国内监管已经启动：监管现状与合规对应

在讨论如何适配零信任框架之前，有一个前提需要先说清楚：国内的 Agent 监管不是"即将到来"，而是已经落地。2026 年 5 月 8 日，国家网信办、国家发改委、工信部联合印发《智能体规范应用与创新发展实施意见》，这是国家层面第一次将智能体 Agent 作为独立治理对象，系统性建立产业部署和治理框架。时间上与 Anthropic 白皮书发布仅差 19 天，两份文件从不同方向指向同一个结论：Agent 的行为治理窗口正式开启。

这份文件最值得关注的，是监管逻辑的根本性转变。过去几年的监管核心是"大模型服务"，重点是模型是否备案、生成内容是否合规。但这份文件把治理对象换成了"智能体"：具备自主感知、记忆、决策、交互与执行能力的智能系统。背后的逻辑是：当 AI 从"说话"走向"做事"，治理就必须从内容治理升级为行为治理。智能体的风险不再只发生在输出端，而是发生在工具调用、权限执行、多智能体协同的整个链路里。

在合规方向上，文件明确要求智能体"有标准、有身份、有权限、有评测、有追溯"，安全可控被放在首位，重点行业和敏感场景将走更强监管。配套的法律层面也已到位：新修订的《网络安全法》已于 2026 年 1 月 1 日正式施行，将人工智能安全框架正式嵌入法律，要求 AI 服务提供者建立安全事件响应机制，对造成特别严重危害的行为，罚款上限提至一千万元。

这些要求与零信任框架如何对应？中国数据安全法（DSL）、网络安全法（CSL）、等保 2.0、个人信息保护法（PIPL）已经从不同角度覆盖了零信任的核心要求：访问控制、审计追踪、数据分类分级、最小权限原则。白皮书提出的六大能力域，与等保 2.0 的安全通信网络、安全区域边界、安全计算环境等控制项形成直接对应关系。而《实施意见》要求的"有身份、有权限、有评测、有追溯"，与白皮书六大能力域在底层逻辑上几乎是同一套语言的不同表述。

实操建议：构建 Agent 安全架构时，可以将零信任框架作为技术架构基础，等保 2.0 + DSL + 《实施意见》的合规要求作为验收标准，两套体系不冲突，零信任框架往往能超额满足等保要求，同时天然覆盖《实施意见》提出的身份、权限和追溯要求。对企业来说，这意味着不需要为每套合规要求单独建设，一套架构可以同时应对多个检查口径。

5.2 使用和微调大模型的供应链风险

对于使用国产大模型、或者在基础模型上做过微调的企业，白皮书的供应链风险分析有一层额外的含义：用的模型本身，也可能是攻击入口。

白皮书引用 Anthropic 安全研究指出，只需 250 个精心构造的恶意文档，就能在大模型中植入行为后门，且这个后门在经过标准的安全对齐训练（SFT + RLHF）之后依然存在。换句话说，如果微调数据的来源没有经过严格审查，模型的安全性就无法保证：即便后续做了再多的安全训练，也可能补不回来。

基于此，有三件事值得纳入企业 AI 治理的基本动作清单：

管好微调数据的来源：数据从哪来、经过哪些处理、有没有引入不可信的第三方内容，要有明确的记录和审查机制

对第三方 MCP 服务器保持谨慎：尽量企业自行托管，代码验证通过后再上线，不要直接使用来路不明的公开 MCP 服务

建立 AI-BOM（AI 物料清单）：就像软件有 SCA 扫描一样，AI 系统也需要一份清单，记录用的是哪个模型、基于什么数据训练、做过哪些微调，出了问题，能追溯到根

5.3 国内企业 Agent 部署的典型安全盲区

基于在多个企业 AI 部署项目中的观察：

API Key 硬编码：在代码仓库或配置文件中明文存储 API 密钥，在接触过的项目中极为普遍

权限跟账号走而非任务走：给 Agent 使用一个有广泛权限的企业服务账号，没有针对任务的动态权限设计

无 Agent 注册表：不知道企业内部有哪些 Agent 在运行、各自有什么权限、出了问题找谁

影子 AI 完全不设防：员工使用各类 AI 工具接入企业数据，IT 部门完全不掌握

记忆/上下文保留无限期：Agent 的会话上下文没有 TTL 机制，被投毒内容可以无限期驻留

5.4 对企业 AI 部署服务团队的参考

当前阶段，客户对 Agent 安全的认知大多还处于「还没想到」的阶段，而不是「想到了但觉得贵」。这意味着现在主动提出安全架构方案的服务商，可以以较低的增量成本建立差异化；一旦第一批安全事故发生，这个能力将从加分项变为门槛。

▌ 给企业 AI 服务团队 / 建议将「Agent 安全架构设计」作为企业 AI 部署服务的标准模块，包括 Agent 注册表、最小权限设计、审计日志三件套。这不需要等待完整的零信任基础设施，Foundation 级别的能力就足以在客户评估中建立信任优势。

六、总结与展望

Anthropic 的《Zero Trust for AI Agents》白皮书，标志着 AI 安全讨论从「模型安全」进入「系统安全」的新阶段。它不是在讨论模型会不会产生幻觉，而是在讨论当 Agent 拥有工具、权限、记忆、自主决策能力时，企业如何确保这些能力不会被滥用或被攻击者利用。

结合行业共振信号和商业逻辑，以下是值得重点关注的五个趋势信号（参考窗口而非确定性预测）：

趋势	参考窗口
Agent 安全垂直市场形成，出现首批专注产品	短期内
大型企业客户将 Agent 安全合规纳入采购评估标准	短期至中期
Agent 安全交叉人才供需缺口显现，岗位溢价出现	中期
首批公开 Agent 安全事故触发行业教育，完成决策层认知重塑	中期
国内监管机构推出 AI Agent 专项安全要求或检查	中期至长期

▌ 最终判断 / 现在是建立 Agent 安全能力成本最低的时机，不是因为合规要求，而是因为这将影响企业在 AI 时代的竞争位置。安全合规要求在形成后，通常沿着「监管 → 头部企业采购标准 → 行业门槛」的路径传导。行业框架密集发布表明传导过程已经启动。

参考文献

Anthropic, "Zero Trust for AI Agents", May 2026. https://claude.com/blog/zero-trust-for-ai-agents

2. Anthropic, "Project Glasswing: An initial update", May 22, 2026. https://www.anthropic.com/research/glasswing-initial-update

3. NIST, "SP 800-207: Zero Trust Architecture", August 2020. https://csrc.nist.gov/pubs/sp/800/207/final

4. IBM, "Cost of a Data Breach Report 2025". https://www.ibm.com/security/data-breach

5. OWASP, "Top 10 for Agentic Applications for 2026", December 2025. https://genai.owasp.org/resource/owasp-top-10-for-agentic-applications-for-2026/

6. Microsoft, "New tools and guidance: Announcing Zero Trust for AI", March 19, 2026. https://www.microsoft.com/en-us/security/blog/2026/03/19/

7. Microsoft Research, "Prompt Injection Attacks and Defenses in LLM-Integrated Applications", 2024.

8. Cisco, "Zero Trust for Agentic AI", March 23, 2026. https://www.cisco.com/c/en/us/solutions/collateral/artificial-intelligence/

9. CSA, "The Agentic Trust Framework", February 2, 2026. https://cloudsecurityalliance.org/blog/2026/02/02/

10. Gartner, "AI Predictions 2025". https://www.gartner.com/en/articles/gartner-top-10-strategic-technology-trends-for-2025

11. NIST, "1-10-100 Rule in Cybersecurity Cost Analysis". Referenced in SP 800 series guidelines.

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

Skills

信息澄清：定义必填输入项，缺失关键信息时主动向用户问询，禁止无依据推演。线性流程：明确步骤先后顺序、每一步的具体执行动作。决策分支：定义不同输入/状态下的流程跳转规则（如数据为空、格式异常时走分支B）。工具调用：指定工具名称、调用参数、执行顺序、权限要求。失败兜底：定义超时、报错、权限不足等异常场景的降级方案。结果验证：设定输出验收标准、自检规则，确保结果合规。输出格式：强制定义最终产出的结构、字

龙虾开发者社区

国内对标腾讯 WorkBuddy 的桌面 AI 智能体软件大全

WorkBuddy 是一款桌面端 AI 智能体，支持自然语言操控电脑、自动操作文件及 Office 办公软件，能够自动拆解并执行多步骤工作流，免配置、开箱即用。以下适合技术用户，高度自定义，对标 OpenClaw 和 WorkBuddy。以下为简化版桌面 Agent，侧重 Office 自动化。三类进行整理，全部附官方介绍与正规官方下载入口。以下产品功能高度重合，优先推荐。

龙虾开发者社区

AI Agent 30天速成｜Day9 笔记

解决方案：全部封装标准Function，统一网关调度，所有向量操作都经过中间件拦截。解决方案：Embedding工具独立超时，令牌桶管控QPS，熔断拦截连续失败请求。解决方案：System提示词完整列出全部工具名称与用途，搭配少样本示例。所有工具全部注册到统一网关，权限、限流、熔断、日志一套逻辑复用。解决方案：使用Chroma持久客户端，向量数据落地本地文件夹。：批量文本转语义向量，所有向量操作唯