# OWASP AI Exchange 完全指南：AI/ML 系统安全评估实战(附带SKILL)

福祸无门

72人浏览 · 2026-07-01 04:05:42

福祸无门 · 2026-07-01 04:05:42 发布

基于 OWASP AI Exchange 300+ 页权威框架，融合 G.U.A.R.D. 治理方法论与致命三要素（Lethal Trifecta）风险分析模型，为安全工程师提供从威胁识别到落地实施的完整参考。

一、为什么需要 AI 安全？

1.1 AI 安全与传统安全的本质区别

传统软件是演绎式的——确定性代码按明确指令处理数据。而机器学习是归纳式的——基于统计数据分布定义行为，犯错是模型的固有属性。

三大根本性挑战：

原则一：归纳性风险（Inductive Nature Risks）

模型对某些输入永远会产生错误输出。攻击者可以利用统计模式来操纵行为。传统的输入验证远远不够——必须假设模型可以被欺骗、操纵或诱导产生有害输出。

原则二：边界流动性（Fluidity of Boundaries）

LLM 在上下文窗口中将指令（系统提示词）和数据同等对待，导致经典的代码/数据信任边界彻底崩溃。用户提供的文本可能被解读为系统指令，外部数据（RAG 检索文档）可能覆盖系统行为。

原则三：零信任模型（Zero Model Trust）

安全机制必须假设任何模型都可能被操纵、欺骗或诱导泄露信息。控制措施必须同时聚焦于加固资产（提高模型抗攻击能力）和限制爆炸半径（在攻击成功时遏制损害范围）。

“保护 AI 通常比保护非 AI 系统更难，首先因为它相对较新，其次是因为所有数据驱动的技术都存在不确定性。”

1.2 OWASP AI Exchange 是什么？

OWASP AI Exchange 是全球最全面的 AI 安全指南——300+ 页免费、持续更新的实践指导，代表全球专家共识的最高对齐。

标准/法规	与 AI Exchange 的关系
ISO/IEC 27090（AI安全）	AI Exchange 提供技术基础
ISO/IEC 27091（AI隐私）	AI Exchange 提供技术基础
EU AI Act	通过独特的SDO合作伙伴关系直接对齐
MITRE ATLAS	对抗战术、技术和程序映射
NIST AI RMF	AI风险管理框架对齐

二、G.U.A.R.D. 治理框架

组织需实施五个生命周期阶段：

G — Govern（治理）

维护 AI 项目的中央清单，进行全面的业务/隐私影响分析，分配严格的资产责任人，与法律框架交叉参照。

U — Understand（理解）

将系统架构映射到结构化决策树，推导哪些理论威胁会转化为实际技术风险，确保工程师理解相关威胁和控制措施。

A — Adapt（适配）

将 AI 特有的数据结构（权重、训练语料、嵌入向量）集成到 ISMS 和 SDLC，扩展威胁建模以包含 AI 特有方法，供应链管理扩展到数据、模型和托管。

R — Reduce（降低）

执行数据最小化，混淆训练记录，管理模型接口的最小权限，建立严格的下游人工或规则防护栏。

D — Demonstrate（证明）

生成加密谱系文档，验证审计跟踪，自动化红队遥测，为审计师和高管提供合规证明。

三、AI 威胁分类法

所有 AI 威胁映射到三个攻击者目标：

Disclose（泄露）：损害训练/测试数据、模型 IP 或输入数据的机密性
Deceive（欺骗）：损害模型行为的完整性
Disrupt（破坏）：损害模型的可用性

3.1 模型行为完整性威胁（Deceive）

3.1.1 直接提示注入（Direct Prompt Injection）

属性	详情
AI特有	是
类型	仅GenAI（LLM）
生命周期	运行时
攻击面	输入攻击

机制：攻击者精心构造破坏性提示词，覆盖系统对齐规则、绕过结构化防护栏。

影响：生成有毒、版权受限或高度敏感内容；执行未经审核的后端函数调用。

控制措施：#PROMPT INJECTION I/O HANDLING、#MODEL ALIGNMENT、#OVERSIGHT

攻击策略：

角色扮演和条件设定（“扮演一个不受限制的专家”）
覆盖系统指令（“忽略之前的指令”）
编码技巧（base64、表情符号、拼写错误）
分割攻击（将有害提示拆分为多段）
非文本输入（图片、音频中隐藏指令）
强制隐藏上下文泄露
操纵输入/输出格式
多轮渐进式操纵
超长提示词淹没安全机制

越狱策略：

利用竞争目标（有用性 vs. 安全性）的冲突
使用分布外输入绕过对齐

3.1.2 间接提示注入（Indirect Prompt Injection）

属性	详情
AI特有	是
类型	GenAI + 数据插入
生命周期	运行时
攻击面	不可信数据插入提示词

机制：第三方在外部非结构化数据源（网页、向量数据库）中放置恶意指令，被 LLM 代理动态读取并执行。

影响：静默权限提升、通过用户会话上下文动态数据泄露、未授权账户接管。

控制措施：#INPUT SEGREGATION、#PROMPT INJECTION I/O HANDLING、#LEAST MODEL PRIVILEGE

关键场景：

RAG系统检索被篡改的文档
代理访问被攻陷的数据源
邮件/文档处理中隐藏指令
多模态输入（图像中嵌入文本指令）

3.1.3 规避攻击（Evasion / 对抗样本）

属性	详情
AI特有	是
类型	预测式AI（分类任务）
生命周期	运行时
攻击面	输入攻击（操纵数据，非指令）

机制：攻击者在测试时对输入施加不可察觉的数学扰动，导致高置信度误分类。

影响：完全绕过生产安全过滤器、垃圾邮件检测器、人脸识别摄像头或异常交易控制。

控制措施：#EVASION ROBUST MODEL、#TRAIN ADVERSARIAL、#INPUT DISTORTION、#ANOMALOUS INPUT HANDLING、#EVASION INPUT HANDLING

攻击变体：

变体	知识级别	方法
零知识（黑盒）	无内部知识	基于查询的系统探测；决策式/评分式
完美知识（白盒）	完全掌握架构/参数/权重	FGSM、PGD等梯度计算攻击
迁移攻击	代理模型	在代理模型上创建对抗样本，迁移到目标模型
部分知识（灰盒）	部分架构知识	比零知识更高效
投毒后门	漏洞被操纵	特定触发器导致非预期输出

3.1.4 数据投毒（Data Poisoning）

属性	详情
AI特有	是
生命周期	开发阶段
攻击面	训练/微调数据

机制：在训练、微调或对齐全注入精心构造的恶意记录，植入后门触发条件。

影响：基础准确率指标完全退化，或永久插入绕过防御分类检查点的隐藏逻辑开关。

控制措施：#DATA QUALITY CONTROL、#POISON ROBUST MODEL、#TRAIN ADVERSARIAL、#TRAIN DATA DISTORTION、#MORE TRAIN DATA、#MODEL ENSEMBLE

投毒技术：

标签翻转：更改正确标签
特征操纵：改变输入特征
后门/触发器：嵌入特定模式
干净标签攻击：保持正确标签同时改变特征
对抗样本注入

3.1.5 供应链模型投毒

机制：从不可信仓库（如公共注册表）下载包含隐藏恶意权重的预训练模型。

影响：在初始化时完全颠覆企业内部安全对齐属性。

控制措施：#SUPPLY CHAIN MANAGE、#MODEL ENSEMBLE

3.1.6 增强数据操纵（Augmentation Data Manipulation）

机制：操纵插入模型输入的数据（RAG数据库、系统提示词、工作记忆）来影响模型行为。

影响：模型行为被操纵的上下文影响，无需直接访问模型。

控制措施：#INPUT SEGREGATION、#AUGMENTATION DATA INTEGRITY、#PROMPT INJECTION I/O HANDLING

3.2 训练数据机密性威胁（Disclose）

3.2.1 输出中的敏感数据泄露

机制：由于记忆化或防护不足，模型在输出中暴露敏感训练数据。

控制措施：#DATA MINIMIZE、#SENSITIVE OUTPUT HANDLING、#SHORT RETAIN

3.2.2 模型反转攻击（Model Inversion）

机制：攻击者反复查询推理API端点，计算输出概率分布方差，重建私有训练集元素。

影响：私人医疗身份泄露、知识产权泄露、GDPR/AI Act合规违规。

控制措施：#OBSCURE CONFIDENCE、#SMALL MODEL、#UNWANTED INPUT SERIES HANDLING、#DATA MINIMIZE

3.2.3 成员推断攻击（Membership Inference）

机制：通过分析模型输出和置信度模式，确定特定数据是否在训练集中。

影响：当数据集成员身份本身敏感时（如犯罪者训练集），即构成隐私泄露。

控制措施：#OBSCURE CONFIDENCE、#DATA MINIMIZE、#UNWANTED INPUT SERIES HANDLING

3.3 模型机密性威胁（Disclose）

3.3.1 模型窃取（Model Exfiltration）

机制：系统性地收集大规模输入/输出查询，训练复制其执行动态的本地代理架构。

影响：企业资本投资严重贬值，竞争优势丧失，以及更廉价的离线优化规避攻击创建。

控制措施：#RATE LIMIT、#MODEL ACCESS CONTROL、#UNWANTED INPUT SERIES HANDLING、#MODEL WATERMARKING

3.4 可用性威胁（Disrupt）

3.4.1 AI资源耗尽

机制：用高度复杂、递归嵌套的提示词、超大上下文窗口淹没端点，触发过度组合处理时间。

影响：因失控的API令牌账单导致财务枯竭；生产应用拒绝服务（DoS）。

控制措施：#DOS INPUT VALIDATION、#LIMIT RESOURCES、#RATE LIMIT

3.5 致命三要素（The Lethal Trifecta）

对于自主代理，灾难性数据泄露需要三个条件同时满足：

① 不可信数据管道（Untrusted Data Pipeline）

攻击者控制自动加载到LLM上下文窗口的输入向量（网页爬虫、用户表单、邮件、简历）

② 特权访问（Privileged Access）

执行的模型拥有对敏感后端数据库的认证编程访问权限

③ 自主传输（Autonomous Transmission）

模型拥有开放的外发通道，能将结构化数据推出信任边界（邮件调用、webhook执行、动态URL渲染）

三者同时存在 = 灾难性数据泄露
缺少任意一个 = 攻击失败

防御核心：消除三个条件中的任意一个即可阻断攻击链。

四、安全控制目录

关键原则：谨慎选择和实施控制措施。许多控制成本高昂且涉及与其他AI属性的权衡（准确率、性能）。改变学习过程的控制可能产生意想不到的下游副作用。

4.1 治理控制

控制项	核心实施要点
`#AI PROGRAM`	AI项目清单、影响分析、责任分配、合规组织、AI素养培训
`#SEC PROGRAM`	AI特有资产纳入安全管理，包含AI蜜罐策略
`#SEC DEV PROGRAM`	威胁建模、代码审查、渗透测试
`#CHECK COMPLIANCE`	EU AI Act、中国深度合成规定等全球法规追踪
`#SEC EDUCATE`	基于AI清单识别适用威胁，确保工程师理解

AI蜜罐策略（#SEC PROGRAM 中的创新做法）：

加固的数据服务（故意留未修补漏洞）
暴露的数据湖（不暴露实际资产）
脆弱的数据访问API
镜像数据服务器
“意外”暴露的文档
暴露的Python库
从GitHub导入的模型

4.2 数据限制控制

控制项	核心实施
`#DATA MINIMIZE`	移除未使用字段/记录，AI模型通常能容忍减少的特征集
`#ALLOWED DATA`	移除禁止用于预期目的的数据
`#SHORT RETAIN`	不再需要时删除或匿名化数据
`#OBFUSCATE TRAINING DATA`	PATE、目标函数扰动、掩码、加密、分词化

训练数据混淆技术详解：

PATE（教师集合私有聚合） ：在不相交数据子集上训练教师模型集合，学生模型在聚合、加噪的预测上训练
目标函数扰动：向学习算法的目标函数添加受控噪声，按灵敏度和期望隐私级别（epsilon）校准
掩码：用替代表示改变/替换敏感特征（分词、扰动、泛化、特征工程）
加密：非对称加密（Paillier、Elgamal）实现不可预测的 pseudonyms，同态加密支持在密文上计算
分词化：用唯一token替换敏感信息，与差分隐私原则对齐

4.3 行为限制控制

控制项	核心实施
`#OVERSIGHT`	关键操作 human-in-the-loop，自动检测可疑活动
`#LEAST MODEL PRIVILEGE`	限制权限和攻击面，切勿在GenAI指令中实现授权
`#MODEL ALIGNMENT`	训练时对齐（RLHF）+ 部署时对齐（系统提示、防护栏）
`#CONTINUOUS VALIDATION`	检测意外行为变化（操纵、故障、漂移）
`#EXPLAINABILITY`	解释个别模型决策
`#UNWANTED BIAS TESTING`	通过偏差测量检测攻击导致的不期望行为

最小模型权限的7种策略：

基于通用意图加固：按可预见用例最小化
基于提示意图加固：使用LLM解释意图并设置权限
基于角色分配加固：按分配的任务角色最小化
基于风险升级加固：不可信数据进入流程时增加限制
降级子代理：代理间调用包含减少的权限集
事件响应加固：基于可疑程度降低爆炸半径
临时权限：到期自动失效的临时权限

4.4 输入威胁控制

控制项	目标
`#MONITOR USE`	观察、关联和记录模型使用以识别安全事件
`#RATE LIMIT`	限制交互次数防止需大量查询的攻击
`#MODEL ACCESS CONTROL`	将潜在攻击者数量降至最低
`#ANOMALOUS INPUT HANDLING`	检测和处理可能指示攻击的异常输入（OOD检测）
`#UNWANTED INPUT SERIES HANDLING`	检测跨多个输入的攻击模式（模型窃取、渐进操纵）
`#OBSCURE CONFIDENCE`	隐藏置信度防止攻击者高效构造对抗样本
`#EVASION INPUT HANDLING`	处理可能是规避攻击的输入
`#EVASION ROBUST MODEL`	构建对规避攻击固有鲁棒的模型
`#TRAIN ADVERSARIAL`	训练模型对规避和投毒攻击更具鲁棒性
`#INPUT DISTORTION`	轻微修改输入以破坏对抗攻击
`#PROMPT INJECTION I/O HANDLING`	检测、遏制和响应恶意指令
`#INPUT SEGREGATION`	明确分离用户数据与系统指令
`#SENSITIVE OUTPUT HANDLING`	过滤或修改输出防止敏感信息泄露
`#DOS INPUT VALIDATION`	验证输入防止资源耗尽攻击
`#LIMIT RESOURCES`	限制每请求/用户可用计算资源

提示注入 I/O 处理实施细节（#PROMPT INJECTION I/O HANDLING）：

字符清洗：Unicode规范化（NFKC）、字符过滤、移除零宽字符
转义指令类token：转换可能被误认为真实指令的token（围栏、角色标记、XML标签、工具调用token）
划定不可信数据：使用输入隔离（#INPUT SEGREGATION）
识别操纵性指令：模式检测 + LLM-as-a-judge语义检测
上游应用输入处理：尽可能早地清洗
检测不期望输出：内容检测、grounding检查
持续更新检测：使用外部源和开源工具
响应检测：过滤、停止处理或告警

检测工具：Guardrails-AI、Langkit、LLM Guard、NVIDIA NeMo Guardrails、Rebuff

4.5 开发时控制

控制项	目标
`#DEV SECURITY`	保护AI开发基础设施及敏感资产
`#SEGREGATE DATA`	在分离区域存储敏感开发数据
`#CONF COMPUTE`	机密计算：即使使用中也对工程师隐藏训练数据和模型参数
`#FEDERATED LEARNING`	分布式训练不集中数据
`#DATA QUALITY CONTROL`	数据质量控制
`#POISON ROBUST MODEL`	投毒鲁棒模型
`#MODEL ENSEMBLE`	模型集成
`#SUPPLY CHAIN MANAGE`	供应链管理

模型签名：类似于SSL/Authenticode的加密签名——需考虑所有工件：代码、数据、分词器、词汇文件、配置、推理代码。OpenSSF Model Signing SIG正在制定规范。

数据隔离示例：

外部（外部获取数据）
应用开发环境
数据工程环境
训练环境
运行环境（运行时收集数据）

4.6 运行时控制

控制项	目标
`#RUNTIME MODEL INTEGRITY`	运行时模型完整性保护
`#RUNTIME MODEL IO INTEGRITY`	运行时模型I/O完整性
`#RUNTIME MODEL CONFIDENTIALITY`	运行时模型机密性
`#MODEL OBFUSCATION`	模型混淆
`#ENCODE MODEL OUTPUT`	编码模型输出（防止下游注入）
`#MODEL WATERMARKING`	模型水印
`#SMALL MODEL`	使用更小模型减少攻击面

五、风险评估方法论

5.1 决策树威胁识别

系统是否使用GenAI（LLM）？
- 是 → 用户可提供输入？→ 直接提示注入 / 系统插入不可信数据？→ 间接提示注入
- 否 → 跳过提示注入
模型是否执行分类？
- 是 → 对手能影响输入？→ 规避威胁适用
- 否 → 跳过规避
你是否自己训练模型？
- 是 → 数据敏感？→ 泄露、反转、成员推断 / 模型是IP？→ 模型窃取
- 否（使用现成模型）→ 考虑供应链威胁
系统是否向模型输入插入数据（RAG、系统提示词）？
- 是 → 数据敏感？→ 增强数据泄露 / 数据可能被操纵？→ 增强数据操纵
- 否 → 跳过增强威胁
模型能否触发动作？
- 是 → 评估“致命三要素”条件
- 否 → 标准影响评估
始终考虑：AI资源耗尽 + 通用运行时安全威胁 + 常规开发/供应链威胁

5.2 风险处理策略

策略	使用时机	描述
缓解	风险可成本有效地降低	实施控制降低可能性或影响
转移	风险可转移	保险、供应商合同、保修
避免	风险可消除	移除产生风险的功能
接受	残余风险可接受	正式记录并接受

六、AI 安全测试指南

6.1 AI 特有渗透测试流程

侦察：理解AI系统架构（模型类型、数据流、触发动作、输入输出格式）
威胁识别：使用 AI Exchange 威胁分类法，用决策树映射适用威胁
攻击模拟：从最低复杂度攻击开始，逐步升级
影响评估：评估成功攻击的影响
修复：从 AI Exchange 控制目录推荐控制措施

6.2 工程工具矩阵

预测式 AI 工具

工具	关注点	实施策略
ART（对抗鲁棒性工具箱）	规避扰动、投毒弹性	CI/CD流水线中运行，模型权重发布前
Foolbox	几何边界攻击	计算对抗分布边界
TextAttack	NLP对抗攻击	文本分类攻击、数据增强

生成式 AI 工具

工具	关注点	实施策略
Garak	提示注入、对齐绕过、数据泄露	CI/CD构建验证中集成
PyRIT	多轮安全测试	安全审查阶段使用
Promptfoo	提示断言方差	系统提示集开发期间运行

防护栏与验证工具

工具	用途
Guardrails-AI	实时防护规则定义和检查
LLM Guard	提示注入检测、输出过滤
NVIDIA NeMo Guardrails	可定制对话安全框架
Langkit	输入分析工具
Rebuff	检测提示注入尝试

6.3 持续测试策略

类别	测试内容	时机
部署前	模型鲁棒性、注入抗性、数据泄露	每次发布前
运行时监控	漂移检测、异常检测、持续验证	持续
定期	完整红队、渗透测试	季度/年度
事件驱动	模型更新后、事件后	按需

七、AI 隐私保护

7.1 AI 特有的隐私挑战

模型可能记忆训练数据中的个人信息
模型反转可从输出重建训练数据
成员推断可揭示敏感数据集成员身份
RAG 系统可能暴露增强数据中的个人信息
联邦学习中仍可从模型权重提取用户数据

7.2 差分隐私

ε-差分隐私：对相邻数据集的任何输出结果概率几乎相同
组合性：多次查询的隐私损失可累积计算
(ε, δ)-近似差分隐私：允许小概率的更强保证放松

7.3 隐私保护技术栈

技术	保护级别	性能影响	适用场景
数据最小化	中	低	首选，始终适用
PATE	高	中	分类任务
差分隐私训练（DP-SGD）	高	中-高	训练阶段
同态加密	极高	极高	特殊场景
联邦学习	中-高	中	分布式数据
机密计算	高	中	推理阶段

八、生产安全实施检查清单

☑ 1. AI 治理与合规

☐ 系统已添加到企业AI项目中央清单
☐ 已进行正式风险分析，资产所有权已明确分配
☐ 已验证与相关法规框架（GDPR、EU AI Act等）的对齐
☐ AI伦理审查已完成，模型问责人已指定

☑ 2. 供应链安全

☐ 基础模型权重已通过加密哈希校验
☐ 开源组件已知漏洞扫描完成
☐ 外部API提供商的数据保留和模型训练政策已有合同保护
☐ 模型签名已验证（OpenSSF Model Signing）
☐ 数据谱系已记录

☑ 3. 数据保护与生命周期管理

☐ 训练数据集中的敏感数据已最小化或混淆
☐ 数据流水线和MLOps环境遵循最小权限原则
☐ 向量数据库和RAG索引已受到保护
☐ 差分隐私参数已配置

☑ 4. 运行时与边界保护

☐ 用户提示层已与系统指令解耦
☐ 输入过滤器已激活拦截注入模式、对抗变体和异常输入
☐ 速率限制和令牌消耗阈值已配置
☐ 模型运行时完整性检查已启用

☑ 5. 输出管理与执行安全

☐ 模型输出被视为不可信数据，经严格验证或编码
☐ 模型以最小系统权限运行
☐ 不可逆操作前需要人工验证

☑ 6. 监控与事件响应

☐ 模型使用日志记录已启用
☐ 可疑活动自动检测已配置
☐ 漂移检测机制已部署
☐ AI安全事件响应程序已建立

☑ 7. 测试与验证

☐ 部署前AI安全测试已执行
☐ 对抗鲁棒性测试、提示注入测试、数据泄露测试已完成
☐ 红队测试已安排（至少季度一次）

☑ 8. 文档与透明度

☐ 模型卡片（Model Card）已创建
☐ 训练数据来源、已知限制和偏差已记录
☐ 用户已被告知AI系统的使用

九、威胁-控制速查表

威胁	主要控制措施
直接提示注入	`#PROMPT INJECTION I/O HANDLING`、`#MODEL ALIGNMENT`、`#OVERSIGHT`
间接提示注入	`#INPUT SEGREGATION`、`#PROMPT INJECTION I/O HANDLING`、`#LEAST MODEL PRIVILEGE`
规避攻击	`#EVASION ROBUST MODEL`、`#TRAIN ADVERSARIAL`、`#INPUT DISTORTION`
模型反转/成员推断	`#OBSCURE CONFIDENCE`、`#SMALL MODEL`、`#DATA MINIMIZE`
模型窃取	`#RATE LIMIT`、`#MODEL ACCESS CONTROL`、`#MODEL WATERMARKING`
数据投毒	`#DATA QUALITY CONTROL`、`#POISON ROBUST MODEL`、`#MODEL ENSEMBLE`
供应链模型投毒	`#SUPPLY CHAIN MANAGE`、`#MODEL ENSEMBLE`
AI资源耗尽	`#DOS INPUT VALIDATION`、`#LIMIT RESOURCES`、`#RATE LIMIT`
致命三要素	打破三个条件中的任意一个

附录：资源与延伸阅读

资源	链接
OWASP AI Exchange	https://owaspai.org
MITRE ATLAS	https://attack.mitre.org/matrices/enterprise/
NIST AI RMF	https://www.nist.gov/artificial-intelligence
ART（Adversarial Robustness Toolbox）	https://github.com/Trusted-AI/adversarial-robustness-toolbox
Garak	https://github.com/leondz/garak
PyRIT	https://github.com/Azure/PyRIT
Promptfoo	https://github.com/promptfoo/promptfoo
Guardrails-AI	https://github.com/guardrails-ai/guardrails
LLM Guard	https://github.com/protectai/llm-guard

参考来源：本文内容基于 OWASP AI Exchange 框架（https://owaspai.org），该框架是全球最全面的 AI 安全指南，与 ISO/IEC 27090、ISO/IEC 27091 和 EU AI Act 直接对齐。

本文基于 OWASP AI Exchange 300+ 页权威框架编写，旨在为安全从业者提供从威胁识别到落地实施的完整参考。欢迎转发、收藏、讨论。

skill下载链接:
https://github.com/h3guang/A-Skill-base-on-OWASP-AI-Exchange/blob/main/cli-ai-security-skill-v2.zip

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

AI Agent 的插件化工具系统：动态注册、热加载与安全沙箱

*** 标记一个方法为 Agent 可调用的工具。* 框架会自动提取注解信息生成 function calling schema。/** 工具名称，LLM 通过此名称调用 */ String name();/** 工具描述，会出现在 system prompt 的 tool description 中 */ String description();/** 调用示例，帮助 LLM 理解如何使用 *