1. 核心目标

  • 系统化方法论:帮助智能 Agent 持续评估性能、监控目标进展、检测异常。
  • 与第11章(目标设定与监控)和第17章(推理机制)不同,本章强调外部、持续的性能测量
  • 关键环节:定义指标 → 建立反馈循环 → 实施报告系统 → 确保有效性、效率与合规性。

2. 主要应用场景

  • 实时性能跟踪:监控准确率、延迟、资源消耗(如客服机器人响应率)。
  • A/B 测试:对比不同版本或策略,选择最优方案(如物流规划算法)。
  • 合规与安全审计:自动生成报告,验证道德、监管与安全协议遵守情况。
  • 企业治理(AI 合约):通过动态协议明确任务目标、规则和控制。
  • 漂移检测:发现因数据分布或环境变化导致的性能退化。
  • 异常检测:识别错误、攻击或不良涌现行为。
  • 学习进度评估:跟踪学习曲线、技能提升与泛化能力。

3. 实践方法与代码示例

(1) 响应评估

  • 基础方法:字符串精确匹配(示例函数 evaluate_response_accuracy)。
  • 局限性:无法识别语义等价(如“Paris is the capital of France” vs “The capital of France is Paris”)。
  • 改进方向
    • 字符串相似度(Levenshtein、Jaccard)
    • 关键词分析
    • 语义嵌入相似度(余弦相似度)
    • LLM-as-a-Judge(大模型裁判)
    • RAG 特定指标(忠实性、相关性)

(2) 延迟监控

  • 关键指标:请求处理时长。
  • 实践:需将数据写入持久化系统(JSON 日志、时序数据库、数据仓库、可观测性平台)。

(3) Token 使用追踪

  • 目的:控制成本、优化资源。
  • 示例类 LLMInteractionMonitor:统计输入/输出 token 数量。
  • 实际实现需依赖 LLM API 的 tokenizer。

(4) LLM-as-a-Judge

  • 用 LLM 评估 Agent 输出的“有用性”等主观指标。
  • 示例:LLMJudgeForLegalSurvey 类,基于 Google Gemini 模型,评估法律调查问题质量。
  • 评分维度:清晰性、中立性、相关性、完整性、受众适配性。
  • 输出 JSON 包含:总分、理由、详细反馈、关注点、推荐操作。

4. 评估方法对比

方法 优势 劣势
人工评估 捕捉细微行为 难以扩展、昂贵、耗时
LLM-as-a-Judge 一致、高效、可扩展 受限于 LLM 能力,可能忽略中间步骤
自动化指标 客观、可扩展 难以捕捉复杂能力

5. Agent 轨迹评估

  • 必要性:传统软件测试只看结果,Agent 需评估“过程”。
  • 方法:比较实际轨迹与理想轨迹。
  • 匹配方式:精确匹配、按序匹配、任意顺序匹配、精确度/召回率、单工具使用。
  • 应用:检测错误、低效、偏离预期。

6. 测试与评估集

  • 测试文件:单一会话,适合单元测试。
  • 评估集文件:多会话,适合集成测试。
  • 示例:用户请求“关闭卧室 device_2”,测试文件定义预期工具调用与最终响应。

7. 多 Agent 系统评估

  • 类似团队项目,需要评估协作质量
    • 是否有效合作(航班 Agent → 酒店 Agent 信息传递)。
    • 是否遵循计划(先订机票再订酒店)。
    • 是否卡住(无限循环搜索)。
    • 是否选择正确 Agent(天气查询应调用天气 Agent)。
    • 新增 Agent 是否提升性能还是引入冲突。

8. 从 Agent 到“承包商”模式

  • 问题:传统 Agent 基于模糊指令,生产环境脆弱。
  • 解决方案:引入“AI 承包商”模式,强调正式合约与可验证交付。
  • 四大支柱
    1. 正式化合约:明确交付物、数据源、范围、成本、时间。
    2. 动态协商与反馈:Agent 可就不可行条款提出修改建议。
    3. 质量优先的迭代执行:自我验证、单元测试、改进循环。
    4. 子合约分解:复杂任务拆解为子任务,分配给专门 Agent。
  • 意义:从不可预测助手 → 可问责、可靠的系统。

9. 关键结论

  • 持续评估是必要的:因 Agent 概率性、环境动态性,传统测试不足。
  • 评估维度多样:准确性、延迟、资源消耗、轨迹质量、主观有用性。
  • 多 Agent 系统更复杂:需评估协作与整体表现。
  • 未来趋势:从提示驱动 → 合约驱动,提升可靠性与可问责性。
Logo

更多推荐