Google的AI Agent 安全框架围绕三部分展开:

  • 2大安全风险: 异常行为和敏感数据泄露;
  • 3大安全原则: 明确的人类控制者、受限的智能体权限、可观察的行为与规划;
  • 2层安全策略: 运行时策略执行的确定性防护,以及基于推理的动态防御。

这一纵深防御体系通过“风险识别—原则约束—策略落地”的闭环思路,既强化了底层安全边界,又提升了模型自身的抗攻击能力,为 AI Agent 的大规模应用奠定了安全基础。

在这里插入图片描述

两大安全风险

Google认为,智能体的内在设计和强大的能力,可能会给用户带来两种主要风险:异常行为和敏感数据泄漏。

在这里插入图片描述

风险 1:异常行为(Rogue Actions)

异常行为是指智能体(AI Agent)出现的非预期、有害或违反策略的行为。主要原因有:

  • 提示注入(Prompt Injection):攻击者将恶意指令隐藏在处理数据中(如文件、电子邮件、网页),核心模型将这些嵌入数据误解为指令,从而在用户授权下执行攻击者的命令。例如:一个智能体在处理恶意邮件时,可能被操纵泄露用户数据,而不是完成原本的任务。

  • 误解或不对齐(Misalignment/Misinterpretation):即使没有恶意输入,智能体也可能因根本性的对齐问题或误解而产生异常行为。例如:模糊请求“给Mike发邮件汇报项目进展”,可能导致智能体选择错误联系人,意外泄露敏感信息。

  • 外部交互误解(External Interaction Misinterpretation):智能体在与复杂外部工具或环境交互时,可能误解其功能。例如:在复杂网站上错误操作按钮或表单,可能导致意外购买或非预期数据提交。

可能造成的影响有:财务损失、数据泄露、系统中断、声誉受损,甚至物理安全风险,影响与智能体的授权能力和工具访问权限成正比。

▎风险 2:敏感数据泄露(Sensitive Data Disclosure)

智能体不当披露私人或机密信息,是另一类关键风险。主要方式有:

  • 数据外泄(Data Exfiltration):攻击者通过引导智能体执行一系列动作,使其在操作副作用中泄露敏感信息。常见手法包括:将敏感数据嵌入智能体被引导访问的URL中、将机密信息隐藏在代码提交消息中。

  • 输出操控(Output Manipulation):攻击者诱导智能体在生成输出时直接包含敏感信息(如文本、Markdown)。如果应用缺乏安全渲染(如浏览器展示时未进行验证或清理),数据可能被暴露。例如:精心构造的图片URL藏在Markdown中,加载时会泄露数据。此类攻击还可能引发跨站脚本(XSS)。

可能造成的影响有:隐私泄露、知识产权丢失、合规违规、账户被劫持,通常不可逆,造成长期损害。

三大安全原则

Google认为智能体产品开发者需要遵循3个核心原则来确保智能体的安全性。

图片

▎原则 1:智能体必须具备清晰的人类控制者

Principle 1: Agents must have well-defi ned humancontrollers

智能体通常作为人类的代理或助手,继承访问资源和执行操作的权限。因此,为了保障安全和问责,智能体必须在明确的人类监督下运行。主要要求如下:

  • 控制者明确化:每个智能体必须有清晰界定的人类控制用户。系统必须能够可靠地区分授权控制用户发出的指令与潜在不可信输入(如智能体处理的数据)

  • 关键操作必须确认:对于关键或不可逆操作(如删除大量数据、授权重大金融交易、更改安全设置),系统必须要求用户明确确认,以确保人类在环。

  • 多用户与团队场景:智能体需具备独立身份与清晰授权模型,避免跨用户的数据访问或误触发;在共享智能体时,应支持更细粒度的权限分配,而不是单用户智能体的粗粒度权限;如果允许共享配置或自定义提示,必须透明化,让用户明确理解共享如何改变智能体行为和潜在操作。

对应的控制措施是建立有效的 智能体用户控制 (Agent User Controls) 机制:支持独立智能体身份与安全输入通道,用于区分用户命令。

▎原则 2:智能体权限必须受限 Principle 2: Agent powers must have limitations

智能体的权限(可执行的操作和可访问的资源)必须根据其预期用途和用户的风险容忍度进行限制。该原则的主要要求如下:

  • 用途对齐:权限需与用途一致,例如:研究型智能体不应拥有修改金融账户的能力。通用型智能体需要机制在运行时动态收紧权限,仅激活与任务相关的能力(如在写作任务中禁止删除文件)。
  • 超越最小权限原则:不仅是静态最小化权限,而是要根据任务目的和用户意图动态对齐权限。因为基于模型的智能体处于无边界生态中,易受推理错误影响,需要上下文感知的限制。
  • 权限上限与管控:必须定义并强制执行权限上限,严格禁止智能体自提升权限,超出事先授权范围,用户必须随时能检查和撤销赋予智能体的权限。

对应的控制措施是建立明确的智能体权限控制(Agent Permissions)。通过强化的认证、授权与审计(AAA)基础设施落实:可验证的智能体身份、细粒度权限系统、安全凭证管理(如范围化 OAuth 令牌)。

▎原则 3:智能体行为与规划必须可观察

Principle 3: Agent actions and planning must beobservable

信任、有效调试、安全审计、事件响应和用户理解均依赖于智能体行为的透明性。若操作完全不透明,将无法确保其忠实执行或定位问题。该原则的主要要求如下:

  • 全面日志记录:必须在智能体架构内建立健全日志系统,记录包括接受的输入、调用的工具、传递的参数、生成的输出、(理想情况下)中间推理步骤在内的关键信息,同时注意日志的安全保存,避免自身成为敏感数据泄漏点。
  • 操作特性标注:智能体可执行的操作必须被清晰标记,是否只读或会改变状态,是否涉及敏感数据。这些元数据对于自动化安全机制和人工审查至关重要。
  • 透明的用户界面:界面应提升透明度,呈现智能体的“思考过程”,展示其参考的数据来源,在复杂或高风险操作时,明确告知计划执行的动作。

对应的控制措施是需要建立有效的智能体可观察性控制(Agent Observability):安全的集中式日志系统和标准化API,能清晰呈现操作属性和潜在副作用。

两层防御策略

为应对以上风险,Google提出了一种混合方法为核心的“*纵深防御”(A hybrid defense-in-depth)*策略:通过**传统的规则化安全措施**动态的推理防御机制****相结合,在智能体运行环境外层筑起多重边界,即使在面对复杂攻击或意外输入时,仍能有效降低提示注入等风险,同时尽量保持智能体的实用性。

图片

第一层是依靠*传统的确定性措施*,也就是在模型推理之外设置“策略引擎”,对智能体的行为进行拦截和管控,相当于一个安全阀门。例如,超过一定金额的购买请求会被自动阻止或要求用户确认,刚处理过可疑数据的情况下禁止外发邮件等。它的优势在于稳定、可预测、可审计,但局限在于难以覆盖所有复杂场景,也缺乏上下文理解。

第二层则是*基于推理的防御策略*,利用AI模型自身的能力识别潜在风险,让智能体在输入、输出和计划阶段更具韧性。常见的方法包括对抗训练、让模型学会忽略恶意指令或标记可疑输入、使用专门的防护模型来检测输入输出中的攻击迹象、以及通过分析智能体的计划来预测风险并进行拦截。相比静态规则,这类方法更能适应动态场景和复杂攻击模式,也大幅提升了攻击者的成本。

安全层级 第一层:确定性措施 第二层:推理防御
核心思想 策略引擎拦截智能体行为 利用模型推理能力识别风险
主要手段 规则评估、 硬性限制、 用户确认 对抗训练、 防护模型、 计划分析
优势 稳定、可预测、可审计 适应动态场景,识别复杂攻击
局限性 难以覆盖全部场景、 缺乏上下文理解 依赖模型质量、 仍需与策略层结合

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

Logo

更多推荐