测试工程师的 AI 全栈之路：别只会用工具，要学会搭系统

Empty-Filled

11人浏览 · 2026-07-03 23:58:16

Empty-Filled · 2026-07-03 23:58:16 发布

最近很多测试同学都在用 AI。

有人用它分析 PRD，有人用它写测试用例，有人用它总结 Bug，也有人用它整理周报和测试报告。

这些当然有价值。

但我越来越觉得：

只会用 AI 工具，很快会变成新的基础能力。

真正能拉开差距的，可能不是“你会不会问 AI”，而是：

你能不能把 AI 放进测试流程，搭出一套可复用、可验证、可治理的质量系统。

这也是我理解的“测试工程师 AI 全栈”。

它不是让测试工程师去训练大模型，也不是让测试工程师变成前端、后端、算法、运维都精通的人。

而是测试工程师要逐步具备一种能力：

懂测试业务
懂 AI 工具
懂基本工程
懂数据和接口
能把测试经验流程化
能把质量数据结构化
能把 AI 接入真实测试工作流

简单说：

测试工程师的 AI 全栈，不是为了替代测试，而是为了重新设计测试工作的方式。

一、只会用 AI 工具，很快会变成基础能力

现在很多人用 AI 的方式是这样的：

复制 PRD 给 AI
→ 让 AI 生成测试点

复制 Bug 列表给 AI
→ 让 AI 总结问题

复制测试进展给 AI
→ 让 AI 写周报

复制测试结果给 AI
→ 让 AI 生成报告

这类使用方式能提效，但它有明显上限。

因为整个过程仍然依赖人不断复制、粘贴、整理、修正。

AI 本身并不知道：

历史 Bug 在哪里
已有用例有哪些
哪些问题曾经反复出现
哪个模块风险最高
哪个需求属于哪个版本
哪些用例失败后会影响上线

所以很多时候，AI 只是一个“更会写文档的助手”。

它可以帮你写得更快、更顺，但还没有真正进入测试流程。

更大的问题是：如果没有约束，AI 很容易“看起来很完整，实际有风险”。

比如在需求测试设计中，PRD 没写清楚的地方，AI 可能会自己补规则。

审批通过后的终态没定义，它可能直接写成“审批完成”。

PC 和 H5 是否一致没有确认，它可能默认两端一致。

导出字段没有明确，它可能自己推断字段范围。

这些问题对于测试来说都很危险。

因为测试用例不是作文。

测试用例一旦进入测试平台，就会影响执行、回归、验收和上线判断。

所以，测试工程师用 AI，不能只停留在“让它帮我生成内容”。

更重要的是要思考：

AI 应该看什么数据？
AI 应该遵守什么规则？
AI 哪些地方不能推断？
AI 输出后怎么自检？
AI 生成的结果如何被审查？
AI 能不能沉淀成团队能力？

这就是从“会用工具”走向“会搭系统”的开始。

二、测试工程师用 AI，大概会经历三个阶段

我把测试工程师使用 AI 分成三个阶段。

阶段	典型表现	主要问题
会用工具	用 AI 写用例、周报、报告	个人提效，难以复用
会做流程	把 PRD 评审、测试点、用例自检串起来	有方法，但仍依赖复制粘贴
会搭系统	接入数据、建模对象、封装 Skill/Agent	能形成团队能力

第一阶段，是大多数人正在做的事情。

比如：

帮我分析这个需求有哪些测试点
帮我把这些 Bug 按模块分类
帮我把这段测试进展优化成周报
帮我生成一份测试报告

这个阶段很有价值，但主要还是个人效率提升。

第二阶段，是把单个 Prompt 变成测试工作流。

比如需求测试设计，不是直接问：

帮我写测试用例

而是拆成：

1. 需求摘要
2. 评审问题生成
3. 待确认项收敛
4. 测试点设计
5. 正式用例生成
6. 用例自检
7. 修正后输出

这个阶段已经开始接近真实测试工作。

因为它不是让 AI 一步到位，而是让 AI 按照测试思路逐步产出。

第三阶段，是把 AI 接入测试系统和测试数据。

比如：

AI 能查询需求
AI 能查询历史 Bug
AI 能查询已有用例
AI 能查询测试执行结果
AI 能根据版本范围输出上线风险
AI 能根据失败用例推荐回归范围

到这个阶段，AI 才真正从“文档助手”变成“测试工作流的一部分”。

这也是测试工程师 AI 全栈真正有价值的地方。

三、行业领先实践给了哪些启发？

我们不妨看一下行业里比较领先的 AI 实践。

这些实践不一定直接来自测试领域，但对测试工程师非常有参考价值。

它们共同说明了一件事：

领先团队不是在比谁用的模型更新，而是在比谁能把 AI 放进真实工作流。

四、Codex：任务可以委派，但必须可审查

很多人理解 AI 编程工具，还停留在：

帮我补全代码
帮我写一个函数
帮我解释报错

但 Codex 代表的是另一种方向：把软件工程任务委派给 Agent。

OpenAI 对 Codex 的定位是 cloud-based software engineering agent，可以在云端 sandbox 中并行处理任务，比如写功能、回答代码库问题、修 Bug、提出 PR；每个任务运行在自己的 cloud sandbox，并预加载代码仓库。(OpenAI)

这背后的重点不是“AI 写代码更快”，而是工作方式变了：

人描述任务
→ Agent 在隔离环境执行
→ 生成代码变更
→ 输出 diff / PR
→ 人或 AI review
→ 再修正
→ 最终合入

这对测试工程师有什么启发？

不要只把 AI 当成“测试用例生成器”。

测试工作里也有很多任务可以被委派：

分析 PRD 风险
生成评审问题
补充增量测试点
自检测试用例
根据失败日志修复自动化脚本
根据 Bug 列表生成复盘摘要
根据测试执行结果生成报告草稿

但这些任务必须满足几个条件：

输入明确
过程可控
输出可审查
结果可回滚
最终由人确认

这才是测试侧借鉴 Codex 的重点。

不是让 AI 替你“自动测完”，而是让 AI 参与一个可审查、可验证的工程闭环。

五、Claude Code：AI 要进入项目目录，而不是只在聊天框里

Claude Code 给测试工程师的启发是：AI 不应该只停留在聊天框里。

它可以进入项目目录，读取文件，理解结构，执行命令，修改代码，并通过 MCP 连接外部工具。Claude Code 官方最佳实践也强调从环境配置、上下文管理到并行 session 的使用方式。(Claude)

这对测试工程师非常关键。

以前我们使用 AI，经常是这样：

复制 PRD 给 AI
复制 Bug 列表给 AI
复制测试结果给 AI
让 AI 总结

现在可以变成：

把测试数据放进项目
把质量规则写进项目说明
把查询逻辑写成脚本
把能力封装成 MCP
让 AI 基于真实文件和工具回答

比如我最近做了一个很小的 Demo：

CLAUDE.md：约束 AI 行为
ontology.json：表达测试对象和关系
query_ontology.py：本地查询风险
mcp_server.py：暴露 MCP 工具
Claude Code：调用 MCP 输出上线风险速览

这个流程的价值在于：

AI 不再凭感觉回答，而是在一个有文件、有数据、有命令、有约束的项目环境里工作。

这对测试工程师是一个很重要的转变。

以后我们可以围绕这些资产建立项目：

测试用例仓库
接口自动化项目
测试数据生成项目
质量报告生成项目
MCP Server 项目
测试 Ontology Demo
上线风险分析工具

AI 进入项目目录后，能做的事情就不只是写文案，而是可以协作完成一类测试工程任务。

六、Palantir：先建业务对象，再让 AI 行动

如果说 Codex 和 Claude Code 偏工程工具，那么 Palantir 给我们的启发是：企业 AI 落地不能只靠大模型，还需要业务语义层。

Palantir 官方把 Ontology 描述为组织的 operational layer，位于集成到平台中的数字资产之上。(Palantir) Palantir 也强调 Ontology System 会编码企业的数据、逻辑、动作和安全，用于自动化运营中的决策。(Palantir)

这句话翻译到测试领域，就是：

AI 要真正参与测试，不只是要能查 Bug，而是要理解 Bug、用例、需求、版本和风险之间的关系。

如果没有语义层，AI 看到的只是一些表：

requirements
test_cases
bugs
releases
test_runs

但测试工程师真正关心的是：

哪个需求覆盖了哪些用例？
哪些用例失败了？
失败用例发现了哪些缺陷？
哪些缺陷阻塞版本？
哪些模块风险集中？
修复后应该回归哪些范围？
当前是否具备上线评估条件？

这就是测试质量 Ontology 的价值。

我们可以把测试对象建模为：

Requirement：需求
TestCase：测试用例
Bug：缺陷
Release：版本
Module：模块
Risk：风险
Owner：负责人
TestRun：执行记录

再定义关系：

Release includes Requirement
Requirement has TestCase
TestCase found Bug
Bug belongs to Module
Bug blocks Release
Bug causes Risk
Owner handles Bug

这样 AI 就不只是回答：

当前有 2 个 Bug。

而是可以回答：

REL-1.2.0 中，报销审批需求仍有 2 个未关闭 Bug，
其中 BUG-101 为 P1，影响 H5 提交状态确认，
建议修复后回归 H5 提交、撤回、驳回重提链路，
再由测试负责人评估上线条件。

这就是从“数据查询”到“质量判断辅助”的变化。

所以，Palantir 给测试工程师的参考不是去复制它的平台，而是学习它的思路：

先定义业务对象和关系，再让 AI 在这个业务世界里工作。

七、MCP：解决连接问题，但不解决理解问题

MCP 最近很热。

但要说清楚它在 AI 全栈里的位置。

MCP 解决的是“AI 怎么连接工具和数据源”。

比如：

需求系统
缺陷系统
测试平台
文档系统
代码仓库
CI/CD
日志平台
监控平台

在测试工作中，我们经常要把这些系统里的信息复制给 AI。

比如：

从需求系统复制 PRD
从测试平台复制用例执行结果
从缺陷系统复制 Bug 列表
从日志系统复制报错
从监控系统复制指标
从文档系统复制测试报告

如果有 MCP，这些动作可以变成工具调用：

query_requirement
query_test_cases
query_bugs
query_test_runs
query_release_risk
get_regression_scope

但这里有一个关键点：

MCP 解决的是连接问题，Ontology 解决的是理解问题。

只有 MCP，没有 Ontology，AI 可能能查到 Bug，但不一定知道：

Bug 影响哪个用例
用例覆盖哪个需求
需求属于哪个版本
这个 Bug 是否形成上线风险
修复后应该回归哪些范围

所以更完整的路线应该是：

MCP 负责连接系统
Ontology 负责表达对象和关系
Skill / Agent 负责执行标准流程
人负责最终判断和治理

这也是我前面做测试 Demo 时最深的感受。

mcp_server.py 只是把查询能力暴露出去。

真正让 AI 输出质量风险分析的，是背后的对象关系：

Release
Requirement
TestCase
Bug
Risk

没有这些关系，AI 只能查数据。

有了这些关系，AI 才能辅助判断风险。

八、Skill：把个人经验封装成团队能力

行业里另一个重要趋势，是把工作流封装成 Skill。

OpenAI Codex 的 Agent Skills 文档把 skill 定义为扩展 Codex 特定任务能力的方法，skill 可以打包说明、资源和可选脚本，让 Codex 更可靠地遵循某个工作流。(OpenAI开发者)

这对测试团队非常有价值。

测试团队里有很多经验，过去主要靠人记住：

PRD 评审怎么问
测试点怎么收敛
什么用例可以入库
用例自检要看哪些问题
上线风险怎么判断
测试报告怎么写
Bug 复盘怎么归因

这些经验如果只存在个人脑子里，就很难复用。

但如果封装成 Skill，就可以变成团队能力。

比如一个“需求评审 Skill”可以规定：

输入：PRD 原文

流程：
1. 提取需求摘要
2. 按业务规则、状态流转、权限、数据、多端、异常分类
3. 生成评审问题
4. 区分必须确认、建议确认、扩展风险
5. 输出评审会优先 5 问

红线：
- 不替产品补规则
- 不把未明确内容写成已确认
- 不直接生成正式用例

一个“用例自检 Skill”可以规定：

检查待确认项是否写成确定性用例
检查是否编造 PRD 外规则
检查预期是否可验证
检查是否默认 PC/H5 一致
检查是否默认审批通过终态
检查导出字段是否被过度推断
检查是否把批量导入待确认项写入正式用例

这就是测试工程师非常值得做的事：

把个人测试经验，变成 AI 可执行的标准流程。

Prompt 是一次性的。

Skill 是可复用的。

个人 Prompt 能提升一个人的效率，团队 Skill 才能提升整个测试团队的质量能力。

九、治理：只读优先，写入确认

AI 工具越强，越要重视治理。

因为测试工作很多时候和上线质量、数据安全、权限边界有关。

不要一上来就做：

AI 自动关闭 Bug
AI 自动修改上线结论
AI 自动删除测试数据
AI 自动触发发布
AI 自动修改生产配置

更稳的路线应该是：

第一阶段：只读查询
第二阶段：草稿生成
第三阶段：人工确认写入
第四阶段：低风险自动化
第五阶段：平台化审计

这也是企业级 AI 落地的基本思路。

AI 可以查数据，可以生成摘要，可以推荐回归范围，可以生成报告草稿。

但关键结论必须由人确认。

特别是测试场景下，AI 不应该直接给出绝对上线结论。

更合理的表达是：

当前存在 P1 未关闭问题，
建议修复并完成回归后，
由测试负责人结合影响范围评估上线条件。

这个边界非常重要。

AI 可以辅助质量判断，但不能替代质量责任。

十、一个最小实战：让 Claude Code 看懂上线风险

为了验证这条路是否可行，我做了一个很小的 Demo。

目标很简单：

让 Claude Code 通过 MCP 查询本地测试质量 Ontology，并输出版本上线风险。

项目目录大概是这样：

sqa-ontology-demo/
├── CLAUDE.md
├── README.md
├── ontology.json
├── query_ontology.py
└── mcp_server.py

其中：

文件	作用
`CLAUDE.md`	给 Claude Code 的项目约束和行为规则
`ontology.json`	定义需求、用例、缺陷、版本等对象
`query_ontology.py`	本地查询版本风险
`mcp_server.py`	把查询能力暴露成 MCP 工具
`README.md`	Demo 项目说明

ontology.json 里定义了这些对象：

Requirement：报销审批规则优化
Release：REL-1.2.0
TestCase：3 条测试用例
Bug：3 个缺陷，其中 2 个未关闭
Module：报销审批、H5端、数据导出

然后通过 query_ontology.py 本地查询版本风险。

本地脚本可以输出：

版本：REL-1.2.0
需求数：1
用例数：3
失败用例数：2
未关闭 Bug 数：2
Bug 优先级分布：P1 1 个，P2 1 个
Bug 模块分布：H5端 1 个，数据导出 1 个
风险结论：存在 P1 未关闭问题，需修复并回归后再评估上线。

接着通过 mcp_server.py 暴露三个 MCP 工具：

query_release_risk
query_requirement_quality
get_regression_scope

最后在 Claude Code 中提问：

请使用 sqa-ontology MCP 的 query_release_risk 工具，
分析 REL-1.2.0 的上线风险。

Claude Code 输出的结果不再是泛泛回答，而是基于本地数据生成风险速览：

REL-1.2.0 风险速览

需求：1
用例：3
失败：2
未关 Bug：2
Bug 优先级：P1×1，P2×1
阻断风险：有

关键 P1 风险：
BUG-101 H5端提交报销后状态未刷新，
可能导致用户重复提交。

建议回归：
1. H5 提交、撤回、驳回重提链路
2. H5 提交后状态变更
3. 报销数据导出
4. 空文件重试与异步任务状态

结论：
建议测试负责人结合 P1 影响范围和修复回归结果评估上线条件。

这个 Demo 很小，但它跑通了一个完整闭环：

测试对象建模
→ 本地风险查询
→ MCP 工具暴露
→ Claude Code 调用
→ 输出上线风险分析

它说明了一件事：

AI 要真正参与测试，不只是让它生成用例，而是要让它理解需求、用例、缺陷、版本和风险之间的关系。

十一、测试工程师的 AI 全栈能力模型

如果把上面的实践总结成能力模型，我认为测试工程师的 AI 全栈大概包含 7 类能力。

测试理解
+ Prompt 工作流
+ Python / API 基础
+ MCP 工具接入
+ 测试知识建模
+ Skill / Agent 封装
+ 质量治理意识

展开来看：

能力	说明
测试理解	能判断需求风险、用例质量、上线风险
Prompt 工作流	能把测试任务拆成稳定流程
Python / API 基础	能处理 JSON、调用接口、写脚本
MCP 工具接入	能让 AI 查询真实或本地测试数据
测试知识建模	能定义 Requirement、TestCase、Bug、Release、Risk
Skill / Agent 封装	能把经验沉淀成可复用流程
质量治理意识	知道哪些能自动化，哪些必须人工确认

这里面最重要的，不一定是技术最复杂的部分。

对测试工程师来说，最有差异化的能力反而是：

测试知识建模
质量规则设计
AI 工作流设计
风险边界控制

因为开发可能更懂代码，产品可能更懂业务，但测试最适合定义质量关系：

需求如何影响用例
用例如何发现缺陷
缺陷如何形成风险
风险如何影响上线
历史问题如何影响回归范围

这正是测试工程师在 AI 时代的独特价值。

十二、一条适合测试工程师的 AI 全栈路线

如果从现在开始，我建议按 5 步走。

第一步：个人提效

先把日常高频工作 AI 化。

PRD 分析
评审问题生成
测试点设计
测试用例自检
Bug 总结
周报整理
测试报告草稿

这一阶段不用追求复杂系统，先把个人效率提升起来。

第二步：流程化

把单次 Prompt 变成稳定流程。

例如需求测试设计流程：

需求摘要
→ 评审问题
→ 测试点
→ 用例生成
→ 用例自检
→ 修正输出

这一阶段的重点是：不要再直接问“帮我写用例”。

而是让 AI 按测试过程一步步工作。

第三步：结构化

把测试对象建起来。

Requirement
TestCase
Bug
Release
Risk
Module
TestRun
Owner

并定义关系：

需求覆盖哪些用例
用例发现哪些缺陷
缺陷影响哪些模块
缺陷是否阻塞版本
失败用例如何影响回归范围

这一阶段决定 AI 能不能真正理解测试工作。

第四步：工具化

通过 MCP 或 API 接入测试数据。

可以从只读工具开始：

query_requirement
query_cases
query_bugs
query_test_runs
query_release_risk
get_regression_scope

第一阶段不要急着写入。

只读查询已经能带来很大价值。

比如：

快速汇总未关闭 Bug
快速找失败用例
快速生成风险清单
快速推荐回归范围
快速生成报告数据

第五步：团队化

把稳定流程封装成 Skill 或 Agent。

例如：

需求评审 Skill
测试点设计 Skill
用例自检 Skill
上线风险 Agent
测试报告 Agent
Bug 复盘 Agent

每个 Skill 都要有：

输入要求
执行步骤
输出模板
质量红线
自检清单
禁止事项
示例

这一步的目标，是让 AI 能力从个人使用变成团队能力。

十三、不要一上来追求全自动

很多人一听 AI 全栈，就会想到：

AI 自动测完
AI 自动提 Bug
AI 自动判断上线
AI 自动发报告

这个方向很诱人，但不适合作为第一步。

测试场景里，很多动作都和质量责任有关。

所以更稳的路线是：

先只读
再草稿
再确认
再低风险自动化
最后平台化治理

例如上线风险分析：

第一阶段：

AI 查询未关闭 Bug，输出风险清单

第二阶段：

AI 生成测试报告草稿

第三阶段：

测试负责人确认后写入报告系统

第四阶段：

固定格式日报/周报自动生成

第五阶段：

沉淀为团队质量平台能力

这条路线不激进，但更现实。

AI 落地不是为了看起来“自动化程度很高”，而是为了真正可用、可信、可控。

十四、未来测试工程师的差距在哪里？

未来测试工程师之间的差距，可能不再只是：

谁写用例更快
谁提 Bug 更多
谁自动化覆盖率更高

更大的差距会体现在：

谁能把测试经验变成流程
谁能把测试数据变成结构
谁能把 AI 接入真实系统
谁能定义可靠的质量判断规则
谁能把个人方法变成团队能力

换句话说，未来更有价值的测试工程师，不只是会测试系统。

而是能设计：

AI 如何参与测试。

这是一种新的能力。

它要求测试工程师既懂质量，又懂工具；既懂业务风险，又懂基本工程；既能使用 AI，也能约束 AI。

十五、最后

测试工程师的 AI 全栈之路，不是盲目追热点。

也不是今天学一个工具，明天换一个模型，后天再追一个框架。

真正值得投入的是：

把测试流程 AI 化
把测试知识结构化
把测试工具标准化
把测试经验 Skill 化
把质量判断治理化

从个人提效，到团队能力。

从复制粘贴，到工具连接。

从泛泛生成，到基于数据和关系分析。

从让 AI 写几条用例，到让 AI 理解需求、用例、缺陷、版本和风险之间的关系。

最后总结一句：

测试工程师的 AI 全栈，不是为了替代测试，而是为了重新设计质量工作的方式。

未来优秀的测试工程师，不只是会发现问题，而是能搭出一套让 AI 参与质量、理解质量、放大质量的工作系统。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

AI Agent 面试题 720：如何实现Agent的安全日志的实时分析？

权限控制与沙箱是 AI Agent 技术体系中的重要组成部分。简单来说，它涉及到 Agent 如何在 Agent安全与对齐层面实现智能化的行为和决策。在实际应用中，权限控制与沙箱的核心目标是让 Agent 能够更加高效、准确地完成特定任务。这需要我们深入理解其底层原理和实现机制。从学术角度来看，权限控制与沙箱的研究可以追溯到人工智能的早期阶段。早在 1950 年代，Alan Turing

龙虾开发者社区

AI Agent 面试题 714：如何设计Agent的安全合规自动化检查流程？

对齐技术是 AI Agent 技术体系中的重要组成部分。简单来说，它涉及到 Agent 如何在 Agent安全与对齐层面实现智能化的行为和决策。在实际应用中，对齐技术的核心目标是让 Agent 能够更加高效、准确地完成特定任务。这需要我们深入理解其底层原理和实现机制。从学术角度来看，对齐技术的研究可以追溯到人工智能的早期阶段。早在 1950 年代，Alan Turing 就提出了关于机器智

龙虾开发者社区

AI Agent 面试题 726：如何设计Agent的安全事件的根因分析流程？

红队测试是 AI Agent 技术体系中的重要组成部分。简单来说，它涉及到 Agent 如何在 Agent安全与对齐层面实现智能化的行为和决策。在实际应用中，红队测试的核心目标是让 Agent 能够更加高效、准确地完成特定任务。这需要我们深入理解其底层原理和实现机制。从学术角度来看，红队测试的研究可以追溯到人工智能的早期阶段。早在 1950 年代，Alan Turing 就提出了关于机器智