Giskard v3：模块化AI智能体测试框架，实现自动化评估与红队测试

在AI应用开发中，大语言模型智能体的非确定性输出给传统软件测试方法带来了巨大挑战。其核心原理在于，智能体系统基于概率生成响应，使得单元测试难以适用。为了解决这一问题，业界提出了自动化评估框架，通过模拟多轮交互、集成LLM-as-Judge等技术，对智能体的功能、安全性和性能进行系统性验证。这类框架的技术价值在于将AI应用的“质检”工程化，实现质量左移，确保智能体在迭代中保持稳定可靠。其典型应用场景

weixin_30644369

365人浏览 · 2026-04-29 12:18:18

weixin_30644369 · 2026-04-29 12:18:18 发布

1. 项目概述：Giskard，一个为智能体系统而生的测试与评估框架

如果你正在开发基于大语言模型的智能体应用，无论是客服助手、代码生成工具，还是复杂的多轮对话系统，那么你肯定遇到过这个令人头疼的问题： 如何系统地、自动化地测试和评估一个非确定性的AI系统？ 传统的单元测试在这里几乎失效，因为同一个问题，模型可能给出多种在语义上都正确的回答。手动测试又费时费力，且难以覆盖边缘案例。这正是Giskard这个开源Python库要解决的核心痛点。

Giskard将自己定位为“智能体系统的评估、红队测试与测试生成工具”。简单来说，它是一套专门为LLM应用和AI智能体设计的“质检流水线”。我最初接触它，是因为在一个RAG项目中，我们无法量化地回答“这次模型更新后，回答质量是变好了还是变差了？”以及“我们的智能体在面对恶意诱导时，到底有多脆弱？”。Giskard提供了一套方法论和工具集，让我们能够像测试传统软件一样，对AI应用进行功能、安全和性能方面的验证。

目前，Giskard正处于从v2到v3的架构演进关键期。v3是一个全新的、模块化的、异步优先的重写版本，旨在更轻量、更动态地测试多轮交互的智能体。而v2版本中久经考验的“漏洞扫描”和“RAG评估测试集生成”功能，目前仍依赖于v2的代码库，并正在向v3迁移。对于新项目，我强烈建议从v3的 giskard-checks 开始入手，它代表了未来的方向，设计理念更现代，依赖也更干净。

2. 核心架构与设计理念拆解：为什么是模块化的v3？

Giskard v3的设计哲学非常清晰： 轻量化、模块化、动态化、异步优先 。这四点直接击中了当前AI应用开发，尤其是智能体开发的要害。

2.1 从“大而全”到“按需取用”

传统的AI评估工具常常捆绑了沉重的依赖，比如一上来就要求你安装一整套机器学习框架。Giskard v3反其道而行之，它被拆分成一系列聚焦的包：

giskard-checks ：核心的测试与评估库。它只包含定义测试场景、运行评估逻辑所需的最小依赖。你可以用它来创建从简单字符串匹配到复杂的LLM-as-Judge（用大模型评判大模型）的所有类型的评估。
giskard-scan (开发中) ：智能体漏洞扫描器。这是v2中广受好评的“Scan”功能的继承者，专注于红队测试，比如自动尝试提示词注入、数据泄露攻击等。
giskard-rag (规划中) ：RAG专项评估与合成数据生成。用于专门评估检索增强生成系统的质量，并自动生成测试问题。

这种设计的好处是显而易见的。如果你的项目只是一个简单的提示词工程实验，你只需要安装 giskard-checks ，不必为用不到的安全扫描功能引入额外依赖。这种“按需取用”的模式极大地提升了开发体验和部署的灵活性。

2.2 拥抱异步与非确定性

智能体系统本质上是I/O密集型的，大量时间花在等待LLM API的响应上。v3将 异步优先 作为核心设计，意味着它的内部API（如 scenario.run() ）原生支持 async/await 。这允许你在单个事件循环中并发执行多个评估，从而大幅缩短整个测试套件的运行时间。对于需要评估数百个测试用例的场景，这种性能提升是至关重要的。

更重要的是，v3的API是围绕 动态、多轮测试 构建的。一个智能体不是一次性输入输出函数，而是一个有状态、能进行多轮对话的实体。Giskard v3的 Scenario 对象可以模拟这种多轮交互（通过 .interact() 链式调用），并对整个对话轨迹进行评估。这是相比v2和许多其他静态测试工具的一个巨大飞跃。

2.3 万物皆可包装的抽象

Giskard提出“wrap anything”的理念。无论你的智能体是一个OpenAI的API调用、一个LangChain链、一个自定义的Python类，还是一个完全黑盒的HTTP服务，你都可以将其包装成一个可以被Giskard测试的“函数”。这个抽象非常强大，它使得Giskard能够无缝集成到现有的技术栈中，而不要求你重写核心逻辑。

3. 快速上手：使用 `giskard-checks` 构建你的第一个评估

理论说了这么多，我们来点实际的。假设我们有一个简单的问答函数，它调用GPT-3.5来回答问题。我们想评估它的回答是否基于我们提供的上下文（即是否“接地气”）。

3.1 环境准备与安装

首先，确保你的Python版本在3.12或以上。然后安装 giskard-checks 和 OpenAI SDK。

pip install giskard-checks openai

设置你的OpenAI API密钥（或其他兼容API的密钥）：

export OPENAI_API_KEY='your-api-key-here'

3.2 编写被测函数与评估场景

创建一个Python文件，例如 first_eval.py ：

import asyncio
from openai import OpenAI
from giskard.checks import Scenario, Groundedness

# 初始化客户端
client = OpenAI(api_key="your-api-key-here") # 更推荐从环境变量读取

# 1. 定义你的智能体函数
# 这是一个非常简单的单轮问答函数
def get_answer(question: str) -> str:
    """模拟一个问答AI，接收问题，返回答案。"""
    try:
        response = client.chat.completions.create(
            model="gpt-3.5-turbo", # 或你使用的任何模型
            messages=[
                {"role": "system", "content": "你是一个乐于助人的助手。"},
                {"role": "user", "content": question}
            ],
            temperature=0.7,
        )
        return response.choices[0].message.content
    except Exception as e:
        return f"Error: {e}"

# 2. 创建一个测试场景
async def main():
    # 使用 Scenario 构建器模式
    scenario = (
        Scenario("test_capital_of_france") # 给场景起个名字
        .interact(
            inputs="法国的首都是哪里？", # 输入问题
            outputs=get_answer,          # 指向我们的智能体函数
        )
        .check(
            Groundedness( # 使用内置的“接地性”检查
                name="答案需基于给定上下文",
                answer_key="trace.last.outputs", # 指定从哪获取答案
                context="法国是一个西欧国家，它的首都是巴黎。", # 提供的参考上下文
            )
        )
    )

    # 3. 运行评估
    result = await scenario.run()

    # 4. 查看结果
    result.print_report()

# 由于 run() 是异步的，我们需要 asyncio 来运行
if __name__ == "__main__":
    asyncio.run(main())

3.3 理解代码与核心概念

Scenario （场景） ：这是Giskard测试的基本单元。一个场景定义了一次完整的交互测试，包括输入、调用被测系统的过程、以及一个或多个检查断言。
.interact() ：这个方法定义了如何与你的智能体交互。 inputs 是传给智能体的参数， outputs 是一个可调用对象（函数），它接收 inputs 并返回结果。这里的关键是， outputs 可以是任何东西，这提供了巨大的灵活性。
.check() ：这里我们附加了一个检查器。 Groundedness 是Giskard提供的一个内置检查，它使用一个LLM（默认是GPT-4）来判断 answer 是否可以从提供的 context 中推断出来。这非常适合测试RAG系统，确保答案没有“胡编乱造”。
answer_key="trace.last.outputs" ：这是一个路径表达式。 trace 记录了场景执行的所有步骤， last.outputs 指向最后一次 .interact() 的输出结果。这种设计使得在多轮对话中追踪中间结果变得非常容易。
异步执行 ：注意 scenario.run() 返回的是一个协程，我们需要用 await 调用，并用 asyncio.run() 来驱动整个异步程序。

运行这个脚本，你会看到一个简洁的报告，指出“答案需基于给定上下文”这个检查是通过了还是失败了，并且通常会附上LLM评判者（Judge）的推理过程。

注意： Groundedness 这类LLM-as-Judge检查本身需要调用LLM API（默认是OpenAI的GPT-4），因此会产生额外的API调用成本和耗时。对于早期开发或大量测试，可以先使用字符串匹配、正则表达式等确定性检查。

4. 深入 `giskard-checks` ：构建复杂的评估套件

单个测试场景意义有限，真正的力量在于将多个场景组织成套件，并对智能体进行多维度、批量的评估。

4.1 内置检查器一览

Giskard提供了一系列开箱即用的检查器，覆盖了常见需求：

ExactMatch / Contains / RegexMatch ：基于字符串的精确匹配、包含匹配和正则表达式匹配。适用于有确定预期输出的场景（例如，命令式智能体返回的固定格式JSON）。
Similarity ：计算答案与预期文本之间的余弦相似度（基于句子嵌入）。适用于衡量语义是否相近，容忍一些措辞差异。
LLMJudge ：这是最强大也是最灵活的内置检查。你可以自定义一个“法官提示词”，让一个LLM（通常是比被测模型更强的模型）来评判输出。例如，判断回答是否友好、是否具有毒性、是否符合特定格式要求等。
Groundedness ：如前所述，专门用于评估答案是否基于给定上下文。
Conformity ：评估输出是否符合一组给定的规则或模式（例如，必须包含某个关键词列表中的至少一个词）。

4.2 创建自定义检查器

当内置检查器无法满足需求时，你可以轻松创建自定义检查器。核心是继承 Check 类并实现 _run 方法。

from typing import Dict, Any
from giskard.checks import Check, CheckResult

class AnswerLengthCheck(Check):
    """自定义检查：答案长度是否在合理范围内。"""
    def __init__(self, name: str, min_len: int, max_len: int):
        super().__init__(name)
        self.min_len = min_len
        self.max_len = max_len

    async def _run(self, scenario, context) -> CheckResult:
        # 从场景轨迹中获取答案
        answer = scenario.trace.last.outputs
        length = len(answer)

        # 判断逻辑
        passed = self.min_len <= length <= self.max_len
        message = f"答案长度 {length} 字符，要求范围 [{self.min_len}, {self.max_len}]。"

        # 返回结果
        return CheckResult(
            passed=passed,
            metric=length, # 可以记录一个度量值，便于后续分析
            message=message
        )

# 使用自定义检查器
scenario = (
    Scenario("test_answer_length")
    .interact(inputs="请简要介绍你自己。", outputs=my_agent)
    .check(AnswerLengthCheck(name="答案长度适中", min_len=50, max_len=500))
)

4.3 组织测试套件与批量运行

很少会对一个智能体只做一个测试。Giskard提供了 Suite 类来管理一组相关的 Scenario 。

from giskard.checks import Suite

# 定义多个场景
scenario_fact = Scenario("fact_check").interact(...).check(...)
scenario_safety = Scenario("safety_check").interact(...).check(...)
scenario_format = Scenario("format_check").interact(...).check(...)

# 创建套件
my_test_suite = Suite(
    name="核心功能与安全测试套件",
    scenarios=[scenario_fact, scenario_safety, scenario_format]
)

# 批量运行整个套件
results = await my_test_suite.run()

# 生成综合报告
for scenario_name, scenario_result in results.scenario_results.items():
    print(f"\n--- {scenario_name} ---")
    scenario_result.print_report()

# 你也可以获取套件的整体通过率
print(f"\n套件整体通过率: {results.pass_rate:.2%}")

实操心得 ：在组织套件时，建议按功能或风险域进行分组。例如，一个“基础问答”套件、一个“安全边界”套件、一个“多轮对话”套件。这样当某个模块的测试失败时，可以快速定位问题领域。另外，对于耗时的LLM-as-Judge检查，可以考虑将其与快速的确定性检查分开，在持续集成流水线中优先运行快速测试。

4.4 多轮对话场景测试

测试智能体的核心在于测试其 状态性 和 上下文理解能力 。Giskard v3的 Scenario 完美支持这一点。

async def test_multi_turn_chat():
    # 模拟一个简单的有记忆的聊天助手
    chat_history = []

    def chatting_agent(user_input: str) -> str:
        nonlocal chat_history
        chat_history.append({"role": "user", "content": user_input})
        # 这里简化处理，实际会调用LLM，并将history作为上下文
        # 假设我们模拟一个回答
        if "你好" in user_input:
            reply = "你好！我是助手。"
        elif "你叫什么名字" in user_input:
            reply = "我叫小G。"
        elif "我们刚才说了什么" in user_input:
            # 测试智能体是否记得历史
            reply = f"我们刚才的对话历史是：{str(chat_history[:-1])}"
        else:
            reply = "我不太明白。"
        chat_history.append({"role": "assistant", "content": reply})
        return reply

    scenario = (
        Scenario("multi_turn_context_test")
        .interact(inputs="你好！", outputs=chatting_agent)
        .interact(inputs="你叫什么名字？", outputs=chatting_agent)
        .interact(inputs="我们刚才说了什么？", outputs=chatting_agent)
        .check(
            Contains(
                name="最终回答应包含历史摘要",
                expected="你好",
                answer_key="trace.last.outputs" # 检查最后一轮的回答
            )
        )
    )

    result = await scenario.run()
    return result

在这个例子中，我们通过链式调用 .interact() 模拟了三轮对话。检查器可以访问完整的 trace ，从而对任意一轮的输入输出，甚至是对整个对话的摘要进行分析。这是构建复杂智能体测试的基石。

5. 集成与进阶：在CI/CD中运行Giskard测试

评估代码如果只在本机运行，价值有限。将其集成到持续集成/持续部署流水线中，才能实现“质量左移”，在代码合并或部署前自动拦截问题。

5.1 使用Pytest集成

Giskard的评估可以很容易地包装成Pytest测试用例。

# test_my_agent.py
import pytest
import asyncio
from giskard.checks import Scenario, ExactMatch

def my_agent(query: str) -> str:
    # ... 你的智能体实现 ...
    return "固定响应"

@pytest.mark.asyncio
async def test_agent_greeting():
    """测试智能体问候功能。"""
    scenario = (
        Scenario("pytest_greeting")
        .interact(inputs="Hello", outputs=my_agent)
        .check(ExactMatch(name="响应匹配", expected="固定响应"))
    )
    result = await scenario.run()
    # 使用Pytest断言
    assert result.passed, f"场景失败: {result.message}"

@pytest.mark.asyncio
async def test_agent_farewell():
    """测试智能体告别功能。"""
    scenario = (
        Scenario("pytest_farewell")
        .interact(inputs="Goodbye", outputs=my_agent)
        .check(ExactMatch(name="响应匹配", expected="See you"))
    )
    result = await scenario.run()
    assert result.passed, f"场景失败: {result.message}"

然后你就可以像运行普通Pytest测试一样运行它们： pytest test_my_agent.py -v 。这允许你利用现有的测试报告工具、并行化执行等功能。

5.2 与GitHub Actions集成

在 .github/workflows/ci.yml 中配置一个工作流，在每次推送或拉取请求时运行你的Giskard测试套件。

name: AI Agent CI

on: [push, pull_request]

jobs:
  test:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4

      - name: Set up Python
        uses: actions/setup-python@v5
        with:
          python-version: '3.12'

      - name: Install dependencies
        run: |
          pip install pytest pytest-asyncio giskard-checks openai
          # 安装你的项目依赖

      - name: Run Giskard Tests
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
        run: |
          pytest tests/ --asyncio-mode=auto -v

      # 可选：上传测试结果报告
      - name: Upload Test Results
        if: always()
        uses: actions/upload-artifact@v4
        with:
          name: test-results
          path: ./test-reports/ # 假设你的测试生成了一些报告

重要提示 ：在CI环境中运行LLM-as-Judge测试需要格外小心。首先，API调用会产生费用。其次，运行时间可能较长。建议：

在CI中主要运行 确定性测试 （字符串匹配、正则、相似度）。
将 非确定性测试 （LLMJudge, Groundedness）安排在夜间定时任务或发布前的手动触发任务中。
使用 pytest.mark 对测试进行分类，以便在CI中选择性运行。

5.3 测试数据的管理与参数化

硬编码的测试用例难以维护。更好的做法是将测试用例（输入和预期输出）存储在外部文件（如JSON、CSV）或数据库中。

import json
import asyncio
from giskard.checks import Suite, Scenario, ExactMatch

def load_test_cases(filepath: str):
    with open(filepath, 'r', encoding='utf-8') as f:
        return json.load(f)

async def create_suite_from_data(test_cases):
    scenarios = []
    for tc in test_cases:
        scenario = (
            Scenario(f"test_case_{tc['id']}")
            .interact(inputs=tc["input"], outputs=my_agent_function)
            .check(ExactMatch(name=tc["check_name"], expected=tc["expected_output"]))
        )
        scenarios.append(scenario)
    return Suite("数据驱动测试套件", scenarios=scenarios)

# 使用
test_data = load_test_cases("test_cases.json")
suite = await create_suite_from_data(test_data)
results = await suite.run()

这种方式使得业务人员或测试人员可以方便地维护测试用例库，而无需修改代码。

6. 常见问题、排查技巧与性能优化

在实际使用Giskard构建评估体系的过程中，我踩过不少坑，也总结了一些经验。

6.1 常见问题速查表

问题现象	可能原因	解决方案
`ImportError: cannot import name 'Scenario'`	安装了错误的包。 `Scenario` 在 `giskard-checks` 中。	确保安装的是 `pip install giskard-checks` ，而不是旧的 `giskard` 。
`RuntimeWarning: coroutine 'Scenario.run' was never awaited`	在同步代码中直接调用了异步的 `scenario.run()` 。	使用 `asyncio.run(scenario.run())` 或在异步函数内使用 `await` 。
LLM-as-Judge检查速度极慢或超时	1. 网络问题。 2. 使用的Judge模型太大（如GPT-4）。 3. 测试用例太多。	1. 检查网络和API密钥。 2. 对于内部测试，可换用更小更快的模型（如 `gpt-3.5-turbo` ），通过 `LLMJudge(model='gpt-3.5-turbo')` 指定。 3. 实现并发执行（见下文性能优化）。
测试结果不稳定（时过时不过）	LLM输出的非确定性。即使是Judge模型，其评判也可能有轻微波动。	1. 对于关键断言，避免完全依赖非确定性检查。 2. 可以设置 `temperature=0` 来使Judge输出更稳定。 3. 考虑使用“多数表决”，即同一测试运行多次，取多数结果。
`Groundedness` 检查误判	提供的 `context` 不完整或模糊，导致Judge无法做出准确判断。	确保提供的上下文足够支撑答案。可以尝试在检查中增加 `instruction` 参数，更详细地指导Judge如何判断“接地性”。
无法测试私有或本地模型	默认的 `LLMJudge` 和 `Groundedness` 使用OpenAI API。	可以自定义检查器，在其中调用你的私有模型API。或者，等待Giskard未来支持可配置的Judge模型客户端。

6.2 性能优化技巧

并发执行测试场景 ：这是提升速度最有效的方法。 Suite.run() 内部会并发执行各个场景。但你也可以手动使用 asyncio.gather 来并发运行多个套件或独立场景。

async def run_concurrently():
    suite1 = create_suite_1()
    suite2 = create_suite_2()
    # 并发运行两个套件
    results1, results2 = await asyncio.gather(
        suite1.run(),
        suite2.run()
    )
    # 处理结果...

缓存LLM调用 ：如果你的测试用例中有大量重复或相似的输入，考虑在智能体函数层面或测试框架层面引入缓存。可以使用 functools.lru_cache （注意线程安全）或外部缓存如Redis。 但要小心 ，这可能会掩盖因模型更新导致的行为变化。
分层测试策略 ：
- L1 快速测试 ：在每次提交时运行。只包含 ExactMatch 、 RegexMatch 等毫秒级完成的检查。
- L2 集成测试 ：在合并到主分支前运行。加入 Similarity 、部分关键的 LLMJudge 检查。
- L3 全面测试 ：每日或每周定时运行。执行所有测试，包括耗时的 Groundedness 和多轮复杂场景测试。
优化Judge提示词 ： LLMJudge 的性能和准确性很大程度上取决于你写的提示词。提示词应清晰、无歧义，并明确输出格式（例如，要求只输出“是”或“否”）。冗长模糊的提示词会导致更长的响应时间和更高的误判率。

6.3 调试与日志

当测试失败时，你需要深入查看发生了什么。Giskard的 CheckResult 对象包含了丰富的信息。

result = await scenario.run()
if not result.passed:
    print(f"检查 '{result.check_name}' 失败。")
    print(f"失败信息: {result.message}")
    print(f"度量化指标: {result.metric}") # 如果有的话
    # 查看场景执行的完整轨迹
    print("\n=== 执行轨迹 ===")
    for step in scenario.trace.steps:
        print(f"步骤 {step.step_id}: 输入={step.inputs}, 输出={step.outputs}")
    # 如果是LLMJudge，查看其原始推理
    if hasattr(result, 'raw_judgment'):
        print(f"\nJudge原始输出: {result.raw_judgment}")

将详细的日志输出到文件，便于在CI失败后进行分析。你可以配置Python的logging模块，将Giskard内部日志（如果提供）和你的自定义日志一起记录。

7. 展望：从v2到v3的迁移与未来生态

Giskard v2是一个功能强大的整体式库，其 Scan （自动漏洞扫描）和 RAGET （RAG测试集生成）功能在社区中积累了良好的口碑。v3的模块化重构是一个大胆而正确的方向，但这也意味着当前（在撰写本文时）新用户需要一个混合策略。

对于新项目 ：直接从 giskard-checks 开始。用它来构建你的核心评估场景和测试套件。这是v3的稳定核心，设计现代，足以覆盖大部分功能测试需求。

对于需要红队扫描或RAG评估的项目 ：目前仍需依赖v2。你可以通过 pip install "giskard[llm]>2,<3" 安装v2版本，使用其Scan和RAGET功能。同时，密切关注 giskard-scan 和 giskard-rag 这两个v3新包的开发进度。Giskard团队已在Discord和GitHub Discussions中积极同步进展。

我个人的实践体会是 ，评估AI智能体是一个持续的过程，而不是一次性的任务。Giskard提供的框架，帮助我们将这种评估“工程化”和“自动化”。从编写第一个 Scenario 开始，逐步构建起覆盖准确性、安全性、可靠性和用户体验的完整测试网。当你的智能体迭代更新时，这套测试网就是最可靠的安全网，它能给你带来传统软件开发中早已习以为常的、但对于AI应用却极其珍贵的—— 信心。