# OWASP AI Exchange 完全指南:AI/ML 系统安全评估实战(附带SKILL)
基于 OWASP AI Exchange 300+ 页权威框架,融合 G.U.A.R.D. 治理方法论与致命三要素(Lethal Trifecta)风险分析模型,为安全工程师提供从威胁识别到落地实施的完整参考。
一、为什么需要 AI 安全?
1.1 AI 安全与传统安全的本质区别
传统软件是演绎式的——确定性代码按明确指令处理数据。而机器学习是归纳式的——基于统计数据分布定义行为,犯错是模型的固有属性。
三大根本性挑战:
原则一:归纳性风险(Inductive Nature Risks)
模型对某些输入永远会产生错误输出。攻击者可以利用统计模式来操纵行为。传统的输入验证远远不够——必须假设模型可以被欺骗、操纵或诱导产生有害输出。
原则二:边界流动性(Fluidity of Boundaries)
LLM 在上下文窗口中将指令(系统提示词)和数据同等对待,导致经典的代码/数据信任边界彻底崩溃。用户提供的文本可能被解读为系统指令,外部数据(RAG 检索文档)可能覆盖系统行为。
原则三:零信任模型(Zero Model Trust)
安全机制必须假设任何模型都可能被操纵、欺骗或诱导泄露信息。控制措施必须同时聚焦于加固资产(提高模型抗攻击能力)和限制爆炸半径(在攻击成功时遏制损害范围)。
“保护 AI 通常比保护非 AI 系统更难,首先因为它相对较新,其次是因为所有数据驱动的技术都存在不确定性。”
1.2 OWASP AI Exchange 是什么?
OWASP AI Exchange 是全球最全面的 AI 安全指南——300+ 页免费、持续更新的实践指导,代表全球专家共识的最高对齐。
| 标准/法规 | 与 AI Exchange 的关系 |
|---|---|
| ISO/IEC 27090(AI安全) | AI Exchange 提供技术基础 |
| ISO/IEC 27091(AI隐私) | AI Exchange 提供技术基础 |
| EU AI Act | 通过独特的SDO合作伙伴关系直接对齐 |
| MITRE ATLAS | 对抗战术、技术和程序映射 |
| NIST AI RMF | AI风险管理框架对齐 |
二、G.U.A.R.D. 治理框架
组织需实施五个生命周期阶段:
G — Govern(治理)
维护 AI 项目的中央清单,进行全面的业务/隐私影响分析,分配严格的资产责任人,与法律框架交叉参照。
U — Understand(理解)
将系统架构映射到结构化决策树,推导哪些理论威胁会转化为实际技术风险,确保工程师理解相关威胁和控制措施。
A — Adapt(适配)
将 AI 特有的数据结构(权重、训练语料、嵌入向量)集成到 ISMS 和 SDLC,扩展威胁建模以包含 AI 特有方法,供应链管理扩展到数据、模型和托管。
R — Reduce(降低)
执行数据最小化,混淆训练记录,管理模型接口的最小权限,建立严格的下游人工或规则防护栏。
D — Demonstrate(证明)
生成加密谱系文档,验证审计跟踪,自动化红队遥测,为审计师和高管提供合规证明。
三、AI 威胁分类法
所有 AI 威胁映射到三个攻击者目标:
- Disclose(泄露):损害训练/测试数据、模型 IP 或输入数据的机密性
- Deceive(欺骗):损害模型行为的完整性
- Disrupt(破坏):损害模型的可用性
3.1 模型行为完整性威胁(Deceive)
3.1.1 直接提示注入(Direct Prompt Injection)
| 属性 | 详情 |
|---|---|
| AI特有 | 是 |
| 类型 | 仅GenAI(LLM) |
| 生命周期 | 运行时 |
| 攻击面 | 输入攻击 |
机制:攻击者精心构造破坏性提示词,覆盖系统对齐规则、绕过结构化防护栏。
影响:生成有毒、版权受限或高度敏感内容;执行未经审核的后端函数调用。
控制措施:#PROMPT INJECTION I/O HANDLING、#MODEL ALIGNMENT、#OVERSIGHT
攻击策略:
- 角色扮演和条件设定(“扮演一个不受限制的专家”)
- 覆盖系统指令(“忽略之前的指令”)
- 编码技巧(base64、表情符号、拼写错误)
- 分割攻击(将有害提示拆分为多段)
- 非文本输入(图片、音频中隐藏指令)
- 强制隐藏上下文泄露
- 操纵输入/输出格式
- 多轮渐进式操纵
- 超长提示词淹没安全机制
越狱策略:
- 利用竞争目标(有用性 vs. 安全性)的冲突
- 使用分布外输入绕过对齐
3.1.2 间接提示注入(Indirect Prompt Injection)
| 属性 | 详情 |
|---|---|
| AI特有 | 是 |
| 类型 | GenAI + 数据插入 |
| 生命周期 | 运行时 |
| 攻击面 | 不可信数据插入提示词 |
机制:第三方在外部非结构化数据源(网页、向量数据库)中放置恶意指令,被 LLM 代理动态读取并执行。
影响:静默权限提升、通过用户会话上下文动态数据泄露、未授权账户接管。
控制措施:#INPUT SEGREGATION、#PROMPT INJECTION I/O HANDLING、#LEAST MODEL PRIVILEGE
关键场景:
- RAG系统检索被篡改的文档
- 代理访问被攻陷的数据源
- 邮件/文档处理中隐藏指令
- 多模态输入(图像中嵌入文本指令)
3.1.3 规避攻击(Evasion / 对抗样本)
| 属性 | 详情 |
|---|---|
| AI特有 | 是 |
| 类型 | 预测式AI(分类任务) |
| 生命周期 | 运行时 |
| 攻击面 | 输入攻击(操纵数据,非指令) |
机制:攻击者在测试时对输入施加不可察觉的数学扰动,导致高置信度误分类。
影响:完全绕过生产安全过滤器、垃圾邮件检测器、人脸识别摄像头或异常交易控制。
控制措施:#EVASION ROBUST MODEL、#TRAIN ADVERSARIAL、#INPUT DISTORTION、#ANOMALOUS INPUT HANDLING、#EVASION INPUT HANDLING
攻击变体:
| 变体 | 知识级别 | 方法 |
|---|---|---|
| 零知识(黑盒) | 无内部知识 | 基于查询的系统探测;决策式/评分式 |
| 完美知识(白盒) | 完全掌握架构/参数/权重 | FGSM、PGD等梯度计算攻击 |
| 迁移攻击 | 代理模型 | 在代理模型上创建对抗样本,迁移到目标模型 |
| 部分知识(灰盒) | 部分架构知识 | 比零知识更高效 |
| 投毒后门 | 漏洞被操纵 | 特定触发器导致非预期输出 |
3.1.4 数据投毒(Data Poisoning)
| 属性 | 详情 |
|---|---|
| AI特有 | 是 |
| 生命周期 | 开发阶段 |
| 攻击面 | 训练/微调数据 |
机制:在训练、微调或对齐全注入精心构造的恶意记录,植入后门触发条件。
影响:基础准确率指标完全退化,或永久插入绕过防御分类检查点的隐藏逻辑开关。
控制措施:#DATA QUALITY CONTROL、#POISON ROBUST MODEL、#TRAIN ADVERSARIAL、#TRAIN DATA DISTORTION、#MORE TRAIN DATA、#MODEL ENSEMBLE
投毒技术:
- 标签翻转:更改正确标签
- 特征操纵:改变输入特征
- 后门/触发器:嵌入特定模式
- 干净标签攻击:保持正确标签同时改变特征
- 对抗样本注入
3.1.5 供应链模型投毒
机制:从不可信仓库(如公共注册表)下载包含隐藏恶意权重的预训练模型。
影响:在初始化时完全颠覆企业内部安全对齐属性。
控制措施:#SUPPLY CHAIN MANAGE、#MODEL ENSEMBLE
3.1.6 增强数据操纵(Augmentation Data Manipulation)
机制:操纵插入模型输入的数据(RAG数据库、系统提示词、工作记忆)来影响模型行为。
影响:模型行为被操纵的上下文影响,无需直接访问模型。
控制措施:#INPUT SEGREGATION、#AUGMENTATION DATA INTEGRITY、#PROMPT INJECTION I/O HANDLING
3.2 训练数据机密性威胁(Disclose)
3.2.1 输出中的敏感数据泄露
机制:由于记忆化或防护不足,模型在输出中暴露敏感训练数据。
控制措施:#DATA MINIMIZE、#SENSITIVE OUTPUT HANDLING、#SHORT RETAIN
3.2.2 模型反转攻击(Model Inversion)
机制:攻击者反复查询推理API端点,计算输出概率分布方差,重建私有训练集元素。
影响:私人医疗身份泄露、知识产权泄露、GDPR/AI Act合规违规。
控制措施:#OBSCURE CONFIDENCE、#SMALL MODEL、#UNWANTED INPUT SERIES HANDLING、#DATA MINIMIZE
3.2.3 成员推断攻击(Membership Inference)
机制:通过分析模型输出和置信度模式,确定特定数据是否在训练集中。
影响:当数据集成员身份本身敏感时(如犯罪者训练集),即构成隐私泄露。
控制措施:#OBSCURE CONFIDENCE、#DATA MINIMIZE、#UNWANTED INPUT SERIES HANDLING
3.3 模型机密性威胁(Disclose)
3.3.1 模型窃取(Model Exfiltration)
机制:系统性地收集大规模输入/输出查询,训练复制其执行动态的本地代理架构。
影响:企业资本投资严重贬值,竞争优势丧失,以及更廉价的离线优化规避攻击创建。
控制措施:#RATE LIMIT、#MODEL ACCESS CONTROL、#UNWANTED INPUT SERIES HANDLING、#MODEL WATERMARKING
3.4 可用性威胁(Disrupt)
3.4.1 AI资源耗尽
机制:用高度复杂、递归嵌套的提示词、超大上下文窗口淹没端点,触发过度组合处理时间。
影响:因失控的API令牌账单导致财务枯竭;生产应用拒绝服务(DoS)。
控制措施:#DOS INPUT VALIDATION、#LIMIT RESOURCES、#RATE LIMIT
3.5 致命三要素(The Lethal Trifecta)
对于自主代理,灾难性数据泄露需要三个条件同时满足:
① 不可信数据管道(Untrusted Data Pipeline)
攻击者控制自动加载到LLM上下文窗口的输入向量(网页爬虫、用户表单、邮件、简历)
② 特权访问(Privileged Access)
执行的模型拥有对敏感后端数据库的认证编程访问权限
③ 自主传输(Autonomous Transmission)
模型拥有开放的外发通道,能将结构化数据推出信任边界(邮件调用、webhook执行、动态URL渲染)
三者同时存在 = 灾难性数据泄露
缺少任意一个 = 攻击失败
防御核心:消除三个条件中的任意一个即可阻断攻击链。
四、安全控制目录
关键原则:谨慎选择和实施控制措施。许多控制成本高昂且涉及与其他AI属性的权衡(准确率、性能)。改变学习过程的控制可能产生意想不到的下游副作用。
4.1 治理控制
| 控制项 | 核心实施要点 |
|---|---|
#AI PROGRAM |
AI项目清单、影响分析、责任分配、合规组织、AI素养培训 |
#SEC PROGRAM |
AI特有资产纳入安全管理,包含AI蜜罐策略 |
#SEC DEV PROGRAM |
威胁建模、代码审查、渗透测试 |
#CHECK COMPLIANCE |
EU AI Act、中国深度合成规定等全球法规追踪 |
#SEC EDUCATE |
基于AI清单识别适用威胁,确保工程师理解 |
AI蜜罐策略(#SEC PROGRAM 中的创新做法):
- 加固的数据服务(故意留未修补漏洞)
- 暴露的数据湖(不暴露实际资产)
- 脆弱的数据访问API
- 镜像数据服务器
- “意外”暴露的文档
- 暴露的Python库
- 从GitHub导入的模型
4.2 数据限制控制
| 控制项 | 核心实施 |
|---|---|
#DATA MINIMIZE |
移除未使用字段/记录,AI模型通常能容忍减少的特征集 |
#ALLOWED DATA |
移除禁止用于预期目的的数据 |
#SHORT RETAIN |
不再需要时删除或匿名化数据 |
#OBFUSCATE TRAINING DATA |
PATE、目标函数扰动、掩码、加密、分词化 |
训练数据混淆技术详解:
- PATE(教师集合私有聚合) :在不相交数据子集上训练教师模型集合,学生模型在聚合、加噪的预测上训练
- 目标函数扰动:向学习算法的目标函数添加受控噪声,按灵敏度和期望隐私级别(epsilon)校准
- 掩码:用替代表示改变/替换敏感特征(分词、扰动、泛化、特征工程)
- 加密:非对称加密(Paillier、Elgamal)实现不可预测的 pseudonyms,同态加密支持在密文上计算
- 分词化:用唯一token替换敏感信息,与差分隐私原则对齐
4.3 行为限制控制
| 控制项 | 核心实施 |
|---|---|
#OVERSIGHT |
关键操作 human-in-the-loop,自动检测可疑活动 |
#LEAST MODEL PRIVILEGE |
限制权限和攻击面,切勿在GenAI指令中实现授权 |
#MODEL ALIGNMENT |
训练时对齐(RLHF)+ 部署时对齐(系统提示、防护栏) |
#CONTINUOUS VALIDATION |
检测意外行为变化(操纵、故障、漂移) |
#EXPLAINABILITY |
解释个别模型决策 |
#UNWANTED BIAS TESTING |
通过偏差测量检测攻击导致的不期望行为 |
最小模型权限的7种策略:
- 基于通用意图加固:按可预见用例最小化
- 基于提示意图加固:使用LLM解释意图并设置权限
- 基于角色分配加固:按分配的任务角色最小化
- 基于风险升级加固:不可信数据进入流程时增加限制
- 降级子代理:代理间调用包含减少的权限集
- 事件响应加固:基于可疑程度降低爆炸半径
- 临时权限:到期自动失效的临时权限
4.4 输入威胁控制
| 控制项 | 目标 |
|---|---|
#MONITOR USE |
观察、关联和记录模型使用以识别安全事件 |
#RATE LIMIT |
限制交互次数防止需大量查询的攻击 |
#MODEL ACCESS CONTROL |
将潜在攻击者数量降至最低 |
#ANOMALOUS INPUT HANDLING |
检测和处理可能指示攻击的异常输入(OOD检测) |
#UNWANTED INPUT SERIES HANDLING |
检测跨多个输入的攻击模式(模型窃取、渐进操纵) |
#OBSCURE CONFIDENCE |
隐藏置信度防止攻击者高效构造对抗样本 |
#EVASION INPUT HANDLING |
处理可能是规避攻击的输入 |
#EVASION ROBUST MODEL |
构建对规避攻击固有鲁棒的模型 |
#TRAIN ADVERSARIAL |
训练模型对规避和投毒攻击更具鲁棒性 |
#INPUT DISTORTION |
轻微修改输入以破坏对抗攻击 |
#PROMPT INJECTION I/O HANDLING |
检测、遏制和响应恶意指令 |
#INPUT SEGREGATION |
明确分离用户数据与系统指令 |
#SENSITIVE OUTPUT HANDLING |
过滤或修改输出防止敏感信息泄露 |
#DOS INPUT VALIDATION |
验证输入防止资源耗尽攻击 |
#LIMIT RESOURCES |
限制每请求/用户可用计算资源 |
提示注入 I/O 处理实施细节(#PROMPT INJECTION I/O HANDLING):
- 字符清洗:Unicode规范化(NFKC)、字符过滤、移除零宽字符
- 转义指令类token:转换可能被误认为真实指令的token(围栏、角色标记、XML标签、工具调用token)
- 划定不可信数据:使用输入隔离(
#INPUT SEGREGATION) - 识别操纵性指令:模式检测 + LLM-as-a-judge语义检测
- 上游应用输入处理:尽可能早地清洗
- 检测不期望输出:内容检测、grounding检查
- 持续更新检测:使用外部源和开源工具
- 响应检测:过滤、停止处理或告警
检测工具:Guardrails-AI、Langkit、LLM Guard、NVIDIA NeMo Guardrails、Rebuff
4.5 开发时控制
| 控制项 | 目标 |
|---|---|
#DEV SECURITY |
保护AI开发基础设施及敏感资产 |
#SEGREGATE DATA |
在分离区域存储敏感开发数据 |
#CONF COMPUTE |
机密计算:即使使用中也对工程师隐藏训练数据和模型参数 |
#FEDERATED LEARNING |
分布式训练不集中数据 |
#DATA QUALITY CONTROL |
数据质量控制 |
#POISON ROBUST MODEL |
投毒鲁棒模型 |
#MODEL ENSEMBLE |
模型集成 |
#SUPPLY CHAIN MANAGE |
供应链管理 |
模型签名:类似于SSL/Authenticode的加密签名——需考虑所有工件:代码、数据、分词器、词汇文件、配置、推理代码。OpenSSF Model Signing SIG正在制定规范。
数据隔离示例:
- 外部(外部获取数据)
- 应用开发环境
- 数据工程环境
- 训练环境
- 运行环境(运行时收集数据)
4.6 运行时控制
| 控制项 | 目标 |
|---|---|
#RUNTIME MODEL INTEGRITY |
运行时模型完整性保护 |
#RUNTIME MODEL IO INTEGRITY |
运行时模型I/O完整性 |
#RUNTIME MODEL CONFIDENTIALITY |
运行时模型机密性 |
#MODEL OBFUSCATION |
模型混淆 |
#ENCODE MODEL OUTPUT |
编码模型输出(防止下游注入) |
#MODEL WATERMARKING |
模型水印 |
#SMALL MODEL |
使用更小模型减少攻击面 |
五、风险评估方法论
5.1 决策树威胁识别
-
系统是否使用GenAI(LLM)?
- 是 → 用户可提供输入?→ 直接提示注入 / 系统插入不可信数据?→ 间接提示注入
- 否 → 跳过提示注入
-
模型是否执行分类?
- 是 → 对手能影响输入?→ 规避威胁适用
- 否 → 跳过规避
-
你是否自己训练模型?
- 是 → 数据敏感?→ 泄露、反转、成员推断 / 模型是IP?→ 模型窃取
- 否(使用现成模型)→ 考虑供应链威胁
-
系统是否向模型输入插入数据(RAG、系统提示词)?
- 是 → 数据敏感?→ 增强数据泄露 / 数据可能被操纵?→ 增强数据操纵
- 否 → 跳过增强威胁
-
模型能否触发动作?
- 是 → 评估“致命三要素”条件
- 否 → 标准影响评估
-
始终考虑:AI资源耗尽 + 通用运行时安全威胁 + 常规开发/供应链威胁
5.2 风险处理策略
| 策略 | 使用时机 | 描述 |
|---|---|---|
| 缓解 | 风险可成本有效地降低 | 实施控制降低可能性或影响 |
| 转移 | 风险可转移 | 保险、供应商合同、保修 |
| 避免 | 风险可消除 | 移除产生风险的功能 |
| 接受 | 残余风险可接受 | 正式记录并接受 |
六、AI 安全测试指南
6.1 AI 特有渗透测试流程
- 侦察:理解AI系统架构(模型类型、数据流、触发动作、输入输出格式)
- 威胁识别:使用 AI Exchange 威胁分类法,用决策树映射适用威胁
- 攻击模拟:从最低复杂度攻击开始,逐步升级
- 影响评估:评估成功攻击的影响
- 修复:从 AI Exchange 控制目录推荐控制措施
6.2 工程工具矩阵
预测式 AI 工具
| 工具 | 关注点 | 实施策略 |
|---|---|---|
| ART(对抗鲁棒性工具箱) | 规避扰动、投毒弹性 | CI/CD流水线中运行,模型权重发布前 |
| Foolbox | 几何边界攻击 | 计算对抗分布边界 |
| TextAttack | NLP对抗攻击 | 文本分类攻击、数据增强 |
生成式 AI 工具
| 工具 | 关注点 | 实施策略 |
|---|---|---|
| Garak | 提示注入、对齐绕过、数据泄露 | CI/CD构建验证中集成 |
| PyRIT | 多轮安全测试 | 安全审查阶段使用 |
| Promptfoo | 提示断言方差 | 系统提示集开发期间运行 |
防护栏与验证工具
| 工具 | 用途 |
|---|---|
| Guardrails-AI | 实时防护规则定义和检查 |
| LLM Guard | 提示注入检测、输出过滤 |
| NVIDIA NeMo Guardrails | 可定制对话安全框架 |
| Langkit | 输入分析工具 |
| Rebuff | 检测提示注入尝试 |
6.3 持续测试策略
| 类别 | 测试内容 | 时机 |
|---|---|---|
| 部署前 | 模型鲁棒性、注入抗性、数据泄露 | 每次发布前 |
| 运行时监控 | 漂移检测、异常检测、持续验证 | 持续 |
| 定期 | 完整红队、渗透测试 | 季度/年度 |
| 事件驱动 | 模型更新后、事件后 | 按需 |
七、AI 隐私保护
7.1 AI 特有的隐私挑战
- 模型可能记忆训练数据中的个人信息
- 模型反转可从输出重建训练数据
- 成员推断可揭示敏感数据集成员身份
- RAG 系统可能暴露增强数据中的个人信息
- 联邦学习中仍可从模型权重提取用户数据
7.2 差分隐私
- ε-差分隐私:对相邻数据集的任何输出结果概率几乎相同
- 组合性:多次查询的隐私损失可累积计算
- (ε, δ)-近似差分隐私:允许小概率的更强保证放松
7.3 隐私保护技术栈
| 技术 | 保护级别 | 性能影响 | 适用场景 |
|---|---|---|---|
| 数据最小化 | 中 | 低 | 首选,始终适用 |
| PATE | 高 | 中 | 分类任务 |
| 差分隐私训练(DP-SGD) | 高 | 中-高 | 训练阶段 |
| 同态加密 | 极高 | 极高 | 特殊场景 |
| 联邦学习 | 中-高 | 中 | 分布式数据 |
| 机密计算 | 高 | 中 | 推理阶段 |
八、生产安全实施检查清单
☑ 1. AI 治理与合规
- ☐ 系统已添加到企业AI项目中央清单
- ☐ 已进行正式风险分析,资产所有权已明确分配
- ☐ 已验证与相关法规框架(GDPR、EU AI Act等)的对齐
- ☐ AI伦理审查已完成,模型问责人已指定
☑ 2. 供应链安全
- ☐ 基础模型权重已通过加密哈希校验
- ☐ 开源组件已知漏洞扫描完成
- ☐ 外部API提供商的数据保留和模型训练政策已有合同保护
- ☐ 模型签名已验证(OpenSSF Model Signing)
- ☐ 数据谱系已记录
☑ 3. 数据保护与生命周期管理
- ☐ 训练数据集中的敏感数据已最小化或混淆
- ☐ 数据流水线和MLOps环境遵循最小权限原则
- ☐ 向量数据库和RAG索引已受到保护
- ☐ 差分隐私参数已配置
☑ 4. 运行时与边界保护
- ☐ 用户提示层已与系统指令解耦
- ☐ 输入过滤器已激活拦截注入模式、对抗变体和异常输入
- ☐ 速率限制和令牌消耗阈值已配置
- ☐ 模型运行时完整性检查已启用
☑ 5. 输出管理与执行安全
- ☐ 模型输出被视为不可信数据,经严格验证或编码
- ☐ 模型以最小系统权限运行
- ☐ 不可逆操作前需要人工验证
☑ 6. 监控与事件响应
- ☐ 模型使用日志记录已启用
- ☐ 可疑活动自动检测已配置
- ☐ 漂移检测机制已部署
- ☐ AI安全事件响应程序已建立
☑ 7. 测试与验证
- ☐ 部署前AI安全测试已执行
- ☐ 对抗鲁棒性测试、提示注入测试、数据泄露测试已完成
- ☐ 红队测试已安排(至少季度一次)
☑ 8. 文档与透明度
- ☐ 模型卡片(Model Card)已创建
- ☐ 训练数据来源、已知限制和偏差已记录
- ☐ 用户已被告知AI系统的使用
九、威胁-控制速查表
| 威胁 | 主要控制措施 |
|---|---|
| 直接提示注入 | #PROMPT INJECTION I/O HANDLING、#MODEL ALIGNMENT、#OVERSIGHT |
| 间接提示注入 | #INPUT SEGREGATION、#PROMPT INJECTION I/O HANDLING、#LEAST MODEL PRIVILEGE |
| 规避攻击 | #EVASION ROBUST MODEL、#TRAIN ADVERSARIAL、#INPUT DISTORTION |
| 模型反转/成员推断 | #OBSCURE CONFIDENCE、#SMALL MODEL、#DATA MINIMIZE |
| 模型窃取 | #RATE LIMIT、#MODEL ACCESS CONTROL、#MODEL WATERMARKING |
| 数据投毒 | #DATA QUALITY CONTROL、#POISON ROBUST MODEL、#MODEL ENSEMBLE |
| 供应链模型投毒 | #SUPPLY CHAIN MANAGE、#MODEL ENSEMBLE |
| AI资源耗尽 | #DOS INPUT VALIDATION、#LIMIT RESOURCES、#RATE LIMIT |
| 致命三要素 | 打破三个条件中的任意一个 |
附录:资源与延伸阅读
| 资源 | 链接 |
|---|---|
| OWASP AI Exchange | https://owaspai.org |
| MITRE ATLAS | https://attack.mitre.org/matrices/enterprise/ |
| NIST AI RMF | https://www.nist.gov/artificial-intelligence |
| ART(Adversarial Robustness Toolbox) | https://github.com/Trusted-AI/adversarial-robustness-toolbox |
| Garak | https://github.com/leondz/garak |
| PyRIT | https://github.com/Azure/PyRIT |
| Promptfoo | https://github.com/promptfoo/promptfoo |
| Guardrails-AI | https://github.com/guardrails-ai/guardrails |
| LLM Guard | https://github.com/protectai/llm-guard |
参考来源:本文内容基于 OWASP AI Exchange 框架(https://owaspai.org),该框架是全球最全面的 AI 安全指南,与 ISO/IEC 27090、ISO/IEC 27091 和 EU AI Act 直接对齐。
本文基于 OWASP AI Exchange 300+ 页权威框架编写,旨在为安全从业者提供从威胁识别到落地实施的完整参考。欢迎转发、收藏、讨论。
skill下载链接:
https://github.com/h3guang/A-Skill-base-on-OWASP-AI-Exchange/blob/main/cli-ai-security-skill-v2.zip
更多推荐



所有评论(0)