花花在漫游个人主页

@pushayu2823

花花在漫游

2026-04-14 17:00:28 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

[QA] 如何测试一个 Agent：面向复杂 AI 应用的分层测试方法

测试 Agent，本质上不是测试一个模型，而是测试一个由模型驱动的复杂系统。组件契约层：保证协议、Prompt、解析器、工具返回结构稳定Agent 编排层：保证路由、Planner、工具调用、状态流转过程正确业务场景层：保证最终回答真实、可用、安全、符合用户预期其中最关键的是两点：第一，要基于 trace 做过程评估，而不是只看最终回答。第二，要把各个方面反馈回来的 case持续沉淀为测试集，形成

#人工智能

[QA]插件式测试用例生成工具：LLM Test Case Tool 的设计与实现

功能说明页面打开后，工具默认生成当前页面的一句话摘要。这个功能看起来简单，但可以帮助用户快速确认 AI 是否读对页面，也可以作为后续上下文压缩的第一步。Prompt 示例请阅读当前页面内容，用一句话概括页面的核心主题。要求： 1. 只输出一句话。2. 使用中文。3. 覆盖页面的主要目的和核心结论。4. 不要展开分析过程。输出示例该页面介绍某某功能的背景、目标、核心流程和测试关注点。功能说明摘要不是

#测试用例

[QA】生成测试用例skill

Agent Skills是一种标准化的 AI 能力封装格式。类似于 IDE 的插件或操作系统的应用，Skill 为 AI Agent（如 Cursor Copilot）提供了特定的领域知识、工具集和工作流。为什么我们需要 Skills？传统的 Prompt 工程往往分散在个人文档中，难以复用和协作。Skills 体系带来了以下核心价值：标准化 (Standardization):统一的目录结构 (

到底了