测试工程师的 AI 全栈之路:别只会用工具,要学会搭系统
最近很多测试同学都在用 AI。
有人用它分析 PRD,有人用它写测试用例,有人用它总结 Bug,也有人用它整理周报和测试报告。
这些当然有价值。
但我越来越觉得:
只会用 AI 工具,很快会变成新的基础能力。
真正能拉开差距的,可能不是“你会不会问 AI”,而是:
你能不能把 AI 放进测试流程,搭出一套可复用、可验证、可治理的质量系统。
这也是我理解的“测试工程师 AI 全栈”。
它不是让测试工程师去训练大模型,也不是让测试工程师变成前端、后端、算法、运维都精通的人。
而是测试工程师要逐步具备一种能力:
懂测试业务
懂 AI 工具
懂基本工程
懂数据和接口
能把测试经验流程化
能把质量数据结构化
能把 AI 接入真实测试工作流
简单说:
测试工程师的 AI 全栈,不是为了替代测试,而是为了重新设计测试工作的方式。
一、只会用 AI 工具,很快会变成基础能力
现在很多人用 AI 的方式是这样的:
复制 PRD 给 AI
→ 让 AI 生成测试点
复制 Bug 列表给 AI
→ 让 AI 总结问题
复制测试进展给 AI
→ 让 AI 写周报
复制测试结果给 AI
→ 让 AI 生成报告
这类使用方式能提效,但它有明显上限。
因为整个过程仍然依赖人不断复制、粘贴、整理、修正。
AI 本身并不知道:
历史 Bug 在哪里
已有用例有哪些
哪些问题曾经反复出现
哪个模块风险最高
哪个需求属于哪个版本
哪些用例失败后会影响上线
所以很多时候,AI 只是一个“更会写文档的助手”。
它可以帮你写得更快、更顺,但还没有真正进入测试流程。
更大的问题是:如果没有约束,AI 很容易“看起来很完整,实际有风险”。
比如在需求测试设计中,PRD 没写清楚的地方,AI 可能会自己补规则。
审批通过后的终态没定义,它可能直接写成“审批完成”。
PC 和 H5 是否一致没有确认,它可能默认两端一致。
导出字段没有明确,它可能自己推断字段范围。
这些问题对于测试来说都很危险。
因为测试用例不是作文。
测试用例一旦进入测试平台,就会影响执行、回归、验收和上线判断。
所以,测试工程师用 AI,不能只停留在“让它帮我生成内容”。
更重要的是要思考:
AI 应该看什么数据?
AI 应该遵守什么规则?
AI 哪些地方不能推断?
AI 输出后怎么自检?
AI 生成的结果如何被审查?
AI 能不能沉淀成团队能力?
这就是从“会用工具”走向“会搭系统”的开始。
二、测试工程师用 AI,大概会经历三个阶段
我把测试工程师使用 AI 分成三个阶段。
| 阶段 | 典型表现 | 主要问题 |
|---|---|---|
| 会用工具 | 用 AI 写用例、周报、报告 | 个人提效,难以复用 |
| 会做流程 | 把 PRD 评审、测试点、用例自检串起来 | 有方法,但仍依赖复制粘贴 |
| 会搭系统 | 接入数据、建模对象、封装 Skill/Agent | 能形成团队能力 |
第一阶段,是大多数人正在做的事情。
比如:
帮我分析这个需求有哪些测试点
帮我把这些 Bug 按模块分类
帮我把这段测试进展优化成周报
帮我生成一份测试报告
这个阶段很有价值,但主要还是个人效率提升。
第二阶段,是把单个 Prompt 变成测试工作流。
比如需求测试设计,不是直接问:
帮我写测试用例
而是拆成:
1. 需求摘要
2. 评审问题生成
3. 待确认项收敛
4. 测试点设计
5. 正式用例生成
6. 用例自检
7. 修正后输出
这个阶段已经开始接近真实测试工作。
因为它不是让 AI 一步到位,而是让 AI 按照测试思路逐步产出。
第三阶段,是把 AI 接入测试系统和测试数据。
比如:
AI 能查询需求
AI 能查询历史 Bug
AI 能查询已有用例
AI 能查询测试执行结果
AI 能根据版本范围输出上线风险
AI 能根据失败用例推荐回归范围
到这个阶段,AI 才真正从“文档助手”变成“测试工作流的一部分”。
这也是测试工程师 AI 全栈真正有价值的地方。
三、行业领先实践给了哪些启发?
我们不妨看一下行业里比较领先的 AI 实践。
这些实践不一定直接来自测试领域,但对测试工程师非常有参考价值。
它们共同说明了一件事:
领先团队不是在比谁用的模型更新,而是在比谁能把 AI 放进真实工作流。
四、Codex:任务可以委派,但必须可审查
很多人理解 AI 编程工具,还停留在:
帮我补全代码
帮我写一个函数
帮我解释报错
但 Codex 代表的是另一种方向:把软件工程任务委派给 Agent。
OpenAI 对 Codex 的定位是 cloud-based software engineering agent,可以在云端 sandbox 中并行处理任务,比如写功能、回答代码库问题、修 Bug、提出 PR;每个任务运行在自己的 cloud sandbox,并预加载代码仓库。(OpenAI)
这背后的重点不是“AI 写代码更快”,而是工作方式变了:
人描述任务
→ Agent 在隔离环境执行
→ 生成代码变更
→ 输出 diff / PR
→ 人或 AI review
→ 再修正
→ 最终合入
这对测试工程师有什么启发?
不要只把 AI 当成“测试用例生成器”。
测试工作里也有很多任务可以被委派:
分析 PRD 风险
生成评审问题
补充增量测试点
自检测试用例
根据失败日志修复自动化脚本
根据 Bug 列表生成复盘摘要
根据测试执行结果生成报告草稿
但这些任务必须满足几个条件:
输入明确
过程可控
输出可审查
结果可回滚
最终由人确认
这才是测试侧借鉴 Codex 的重点。
不是让 AI 替你“自动测完”,而是让 AI 参与一个可审查、可验证的工程闭环。
五、Claude Code:AI 要进入项目目录,而不是只在聊天框里
Claude Code 给测试工程师的启发是:AI 不应该只停留在聊天框里。
它可以进入项目目录,读取文件,理解结构,执行命令,修改代码,并通过 MCP 连接外部工具。Claude Code 官方最佳实践也强调从环境配置、上下文管理到并行 session 的使用方式。(Claude)
这对测试工程师非常关键。
以前我们使用 AI,经常是这样:
复制 PRD 给 AI
复制 Bug 列表给 AI
复制测试结果给 AI
让 AI 总结
现在可以变成:
把测试数据放进项目
把质量规则写进项目说明
把查询逻辑写成脚本
把能力封装成 MCP
让 AI 基于真实文件和工具回答
比如我最近做了一个很小的 Demo:
CLAUDE.md:约束 AI 行为
ontology.json:表达测试对象和关系
query_ontology.py:本地查询风险
mcp_server.py:暴露 MCP 工具
Claude Code:调用 MCP 输出上线风险速览
这个流程的价值在于:
AI 不再凭感觉回答,而是在一个有文件、有数据、有命令、有约束的项目环境里工作。
这对测试工程师是一个很重要的转变。
以后我们可以围绕这些资产建立项目:
测试用例仓库
接口自动化项目
测试数据生成项目
质量报告生成项目
MCP Server 项目
测试 Ontology Demo
上线风险分析工具
AI 进入项目目录后,能做的事情就不只是写文案,而是可以协作完成一类测试工程任务。
六、Palantir:先建业务对象,再让 AI 行动
如果说 Codex 和 Claude Code 偏工程工具,那么 Palantir 给我们的启发是:企业 AI 落地不能只靠大模型,还需要业务语义层。
Palantir 官方把 Ontology 描述为组织的 operational layer,位于集成到平台中的数字资产之上。(Palantir) Palantir 也强调 Ontology System 会编码企业的数据、逻辑、动作和安全,用于自动化运营中的决策。(Palantir)
这句话翻译到测试领域,就是:
AI 要真正参与测试,不只是要能查 Bug,而是要理解 Bug、用例、需求、版本和风险之间的关系。
如果没有语义层,AI 看到的只是一些表:
requirements
test_cases
bugs
releases
test_runs
但测试工程师真正关心的是:
哪个需求覆盖了哪些用例?
哪些用例失败了?
失败用例发现了哪些缺陷?
哪些缺陷阻塞版本?
哪些模块风险集中?
修复后应该回归哪些范围?
当前是否具备上线评估条件?
这就是测试质量 Ontology 的价值。
我们可以把测试对象建模为:
Requirement:需求
TestCase:测试用例
Bug:缺陷
Release:版本
Module:模块
Risk:风险
Owner:负责人
TestRun:执行记录
再定义关系:
Release includes Requirement
Requirement has TestCase
TestCase found Bug
Bug belongs to Module
Bug blocks Release
Bug causes Risk
Owner handles Bug
这样 AI 就不只是回答:
当前有 2 个 Bug。
而是可以回答:
REL-1.2.0 中,报销审批需求仍有 2 个未关闭 Bug,
其中 BUG-101 为 P1,影响 H5 提交状态确认,
建议修复后回归 H5 提交、撤回、驳回重提链路,
再由测试负责人评估上线条件。
这就是从“数据查询”到“质量判断辅助”的变化。
所以,Palantir 给测试工程师的参考不是去复制它的平台,而是学习它的思路:
先定义业务对象和关系,再让 AI 在这个业务世界里工作。
七、MCP:解决连接问题,但不解决理解问题
MCP 最近很热。
但要说清楚它在 AI 全栈里的位置。
MCP 解决的是“AI 怎么连接工具和数据源”。
比如:
需求系统
缺陷系统
测试平台
文档系统
代码仓库
CI/CD
日志平台
监控平台
在测试工作中,我们经常要把这些系统里的信息复制给 AI。
比如:
从需求系统复制 PRD
从测试平台复制用例执行结果
从缺陷系统复制 Bug 列表
从日志系统复制报错
从监控系统复制指标
从文档系统复制测试报告
如果有 MCP,这些动作可以变成工具调用:
query_requirement
query_test_cases
query_bugs
query_test_runs
query_release_risk
get_regression_scope
但这里有一个关键点:
MCP 解决的是连接问题,Ontology 解决的是理解问题。
只有 MCP,没有 Ontology,AI 可能能查到 Bug,但不一定知道:
Bug 影响哪个用例
用例覆盖哪个需求
需求属于哪个版本
这个 Bug 是否形成上线风险
修复后应该回归哪些范围
所以更完整的路线应该是:
MCP 负责连接系统
Ontology 负责表达对象和关系
Skill / Agent 负责执行标准流程
人负责最终判断和治理
这也是我前面做测试 Demo 时最深的感受。
mcp_server.py 只是把查询能力暴露出去。
真正让 AI 输出质量风险分析的,是背后的对象关系:
Release
Requirement
TestCase
Bug
Risk
没有这些关系,AI 只能查数据。
有了这些关系,AI 才能辅助判断风险。
八、Skill:把个人经验封装成团队能力
行业里另一个重要趋势,是把工作流封装成 Skill。
OpenAI Codex 的 Agent Skills 文档把 skill 定义为扩展 Codex 特定任务能力的方法,skill 可以打包说明、资源和可选脚本,让 Codex 更可靠地遵循某个工作流。(OpenAI开发者)
这对测试团队非常有价值。
测试团队里有很多经验,过去主要靠人记住:
PRD 评审怎么问
测试点怎么收敛
什么用例可以入库
用例自检要看哪些问题
上线风险怎么判断
测试报告怎么写
Bug 复盘怎么归因
这些经验如果只存在个人脑子里,就很难复用。
但如果封装成 Skill,就可以变成团队能力。
比如一个“需求评审 Skill”可以规定:
输入:PRD 原文
流程:
1. 提取需求摘要
2. 按业务规则、状态流转、权限、数据、多端、异常分类
3. 生成评审问题
4. 区分必须确认、建议确认、扩展风险
5. 输出评审会优先 5 问
红线:
- 不替产品补规则
- 不把未明确内容写成已确认
- 不直接生成正式用例
一个“用例自检 Skill”可以规定:
检查待确认项是否写成确定性用例
检查是否编造 PRD 外规则
检查预期是否可验证
检查是否默认 PC/H5 一致
检查是否默认审批通过终态
检查导出字段是否被过度推断
检查是否把批量导入待确认项写入正式用例
这就是测试工程师非常值得做的事:
把个人测试经验,变成 AI 可执行的标准流程。
Prompt 是一次性的。
Skill 是可复用的。
个人 Prompt 能提升一个人的效率,团队 Skill 才能提升整个测试团队的质量能力。
九、治理:只读优先,写入确认
AI 工具越强,越要重视治理。
因为测试工作很多时候和上线质量、数据安全、权限边界有关。
不要一上来就做:
AI 自动关闭 Bug
AI 自动修改上线结论
AI 自动删除测试数据
AI 自动触发发布
AI 自动修改生产配置
更稳的路线应该是:
第一阶段:只读查询
第二阶段:草稿生成
第三阶段:人工确认写入
第四阶段:低风险自动化
第五阶段:平台化审计
这也是企业级 AI 落地的基本思路。
AI 可以查数据,可以生成摘要,可以推荐回归范围,可以生成报告草稿。
但关键结论必须由人确认。
特别是测试场景下,AI 不应该直接给出绝对上线结论。
更合理的表达是:
当前存在 P1 未关闭问题,
建议修复并完成回归后,
由测试负责人结合影响范围评估上线条件。
这个边界非常重要。
AI 可以辅助质量判断,但不能替代质量责任。
十、一个最小实战:让 Claude Code 看懂上线风险
为了验证这条路是否可行,我做了一个很小的 Demo。
目标很简单:
让 Claude Code 通过 MCP 查询本地测试质量 Ontology,并输出版本上线风险。
项目目录大概是这样:
sqa-ontology-demo/
├── CLAUDE.md
├── README.md
├── ontology.json
├── query_ontology.py
└── mcp_server.py
其中:
| 文件 | 作用 |
|---|---|
CLAUDE.md |
给 Claude Code 的项目约束和行为规则 |
ontology.json |
定义需求、用例、缺陷、版本等对象 |
query_ontology.py |
本地查询版本风险 |
mcp_server.py |
把查询能力暴露成 MCP 工具 |
README.md |
Demo 项目说明 |
ontology.json 里定义了这些对象:
Requirement:报销审批规则优化
Release:REL-1.2.0
TestCase:3 条测试用例
Bug:3 个缺陷,其中 2 个未关闭
Module:报销审批、H5端、数据导出
然后通过 query_ontology.py 本地查询版本风险。
本地脚本可以输出:
版本:REL-1.2.0
需求数:1
用例数:3
失败用例数:2
未关闭 Bug 数:2
Bug 优先级分布:P1 1 个,P2 1 个
Bug 模块分布:H5端 1 个,数据导出 1 个
风险结论:存在 P1 未关闭问题,需修复并回归后再评估上线。
接着通过 mcp_server.py 暴露三个 MCP 工具:
query_release_risk
query_requirement_quality
get_regression_scope
最后在 Claude Code 中提问:
请使用 sqa-ontology MCP 的 query_release_risk 工具,
分析 REL-1.2.0 的上线风险。
Claude Code 输出的结果不再是泛泛回答,而是基于本地数据生成风险速览:
REL-1.2.0 风险速览
需求:1
用例:3
失败:2
未关 Bug:2
Bug 优先级:P1×1,P2×1
阻断风险:有
关键 P1 风险:
BUG-101 H5端提交报销后状态未刷新,
可能导致用户重复提交。
建议回归:
1. H5 提交、撤回、驳回重提链路
2. H5 提交后状态变更
3. 报销数据导出
4. 空文件重试与异步任务状态
结论:
建议测试负责人结合 P1 影响范围和修复回归结果评估上线条件。
这个 Demo 很小,但它跑通了一个完整闭环:
测试对象建模
→ 本地风险查询
→ MCP 工具暴露
→ Claude Code 调用
→ 输出上线风险分析
它说明了一件事:
AI 要真正参与测试,不只是让它生成用例,而是要让它理解需求、用例、缺陷、版本和风险之间的关系。
十一、测试工程师的 AI 全栈能力模型
如果把上面的实践总结成能力模型,我认为测试工程师的 AI 全栈大概包含 7 类能力。
测试理解
+ Prompt 工作流
+ Python / API 基础
+ MCP 工具接入
+ 测试知识建模
+ Skill / Agent 封装
+ 质量治理意识
展开来看:
| 能力 | 说明 |
|---|---|
| 测试理解 | 能判断需求风险、用例质量、上线风险 |
| Prompt 工作流 | 能把测试任务拆成稳定流程 |
| Python / API 基础 | 能处理 JSON、调用接口、写脚本 |
| MCP 工具接入 | 能让 AI 查询真实或本地测试数据 |
| 测试知识建模 | 能定义 Requirement、TestCase、Bug、Release、Risk |
| Skill / Agent 封装 | 能把经验沉淀成可复用流程 |
| 质量治理意识 | 知道哪些能自动化,哪些必须人工确认 |
这里面最重要的,不一定是技术最复杂的部分。
对测试工程师来说,最有差异化的能力反而是:
测试知识建模
质量规则设计
AI 工作流设计
风险边界控制
因为开发可能更懂代码,产品可能更懂业务,但测试最适合定义质量关系:
需求如何影响用例
用例如何发现缺陷
缺陷如何形成风险
风险如何影响上线
历史问题如何影响回归范围
这正是测试工程师在 AI 时代的独特价值。
十二、一条适合测试工程师的 AI 全栈路线
如果从现在开始,我建议按 5 步走。
第一步:个人提效
先把日常高频工作 AI 化。
PRD 分析
评审问题生成
测试点设计
测试用例自检
Bug 总结
周报整理
测试报告草稿
这一阶段不用追求复杂系统,先把个人效率提升起来。
第二步:流程化
把单次 Prompt 变成稳定流程。
例如需求测试设计流程:
需求摘要
→ 评审问题
→ 测试点
→ 用例生成
→ 用例自检
→ 修正输出
这一阶段的重点是:不要再直接问“帮我写用例”。
而是让 AI 按测试过程一步步工作。
第三步:结构化
把测试对象建起来。
Requirement
TestCase
Bug
Release
Risk
Module
TestRun
Owner
并定义关系:
需求覆盖哪些用例
用例发现哪些缺陷
缺陷影响哪些模块
缺陷是否阻塞版本
失败用例如何影响回归范围
这一阶段决定 AI 能不能真正理解测试工作。
第四步:工具化
通过 MCP 或 API 接入测试数据。
可以从只读工具开始:
query_requirement
query_cases
query_bugs
query_test_runs
query_release_risk
get_regression_scope
第一阶段不要急着写入。
只读查询已经能带来很大价值。
比如:
快速汇总未关闭 Bug
快速找失败用例
快速生成风险清单
快速推荐回归范围
快速生成报告数据
第五步:团队化
把稳定流程封装成 Skill 或 Agent。
例如:
需求评审 Skill
测试点设计 Skill
用例自检 Skill
上线风险 Agent
测试报告 Agent
Bug 复盘 Agent
每个 Skill 都要有:
输入要求
执行步骤
输出模板
质量红线
自检清单
禁止事项
示例
这一步的目标,是让 AI 能力从个人使用变成团队能力。
十三、不要一上来追求全自动
很多人一听 AI 全栈,就会想到:
AI 自动测完
AI 自动提 Bug
AI 自动判断上线
AI 自动发报告
这个方向很诱人,但不适合作为第一步。
测试场景里,很多动作都和质量责任有关。
所以更稳的路线是:
先只读
再草稿
再确认
再低风险自动化
最后平台化治理
例如上线风险分析:
第一阶段:
AI 查询未关闭 Bug,输出风险清单
第二阶段:
AI 生成测试报告草稿
第三阶段:
测试负责人确认后写入报告系统
第四阶段:
固定格式日报/周报自动生成
第五阶段:
沉淀为团队质量平台能力
这条路线不激进,但更现实。
AI 落地不是为了看起来“自动化程度很高”,而是为了真正可用、可信、可控。
十四、未来测试工程师的差距在哪里?
未来测试工程师之间的差距,可能不再只是:
谁写用例更快
谁提 Bug 更多
谁自动化覆盖率更高
更大的差距会体现在:
谁能把测试经验变成流程
谁能把测试数据变成结构
谁能把 AI 接入真实系统
谁能定义可靠的质量判断规则
谁能把个人方法变成团队能力
换句话说,未来更有价值的测试工程师,不只是会测试系统。
而是能设计:
AI 如何参与测试。
这是一种新的能力。
它要求测试工程师既懂质量,又懂工具;既懂业务风险,又懂基本工程;既能使用 AI,也能约束 AI。
十五、最后
测试工程师的 AI 全栈之路,不是盲目追热点。
也不是今天学一个工具,明天换一个模型,后天再追一个框架。
真正值得投入的是:
把测试流程 AI 化
把测试知识结构化
把测试工具标准化
把测试经验 Skill 化
把质量判断治理化
从个人提效,到团队能力。
从复制粘贴,到工具连接。
从泛泛生成,到基于数据和关系分析。
从让 AI 写几条用例,到让 AI 理解需求、用例、缺陷、版本和风险之间的关系。
最后总结一句:
测试工程师的 AI 全栈,不是为了替代测试,而是为了重新设计质量工作的方式。
未来优秀的测试工程师,不只是会发现问题,而是能搭出一套让 AI 参与质量、理解质量、放大质量的工作系统。
更多推荐

所有评论(0)