
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Agent 能力越强,测试越不能只看表面效果。一个 Agent 能生成用例,不代表 Skill 质量合格。一个 Agent 能写入平台,不代表 MCP 调用安全。一个 Agent 说“已完成”,也不代表事情真的完成。工作流是否正确;工具链路是否可靠;执行动作是否可控;异常结果是否真实;全链路是否可追踪。让 AI 不只是会做事,还要按正确方法、安全地做事。
Agent 能力越强,测试越不能只看表面效果。一个 Agent 能生成用例,不代表 Skill 质量合格。一个 Agent 能写入平台,不代表 MCP 调用安全。一个 Agent 说“已完成”,也不代表事情真的完成。工作流是否正确;工具链路是否可靠;执行动作是否可控;异常结果是否真实;全链路是否可追踪。让 AI 不只是会做事,还要按正确方法、安全地做事。
AI 进入测试工作后,最容易带来的错觉是:只要输入需求,测试用例就能自动生成。但真正的测试设计,从来不是简单把需求改写成表格。它需要理解业务规则,识别风险,判断边界,分析状态,确认影响范围,最后才能形成可执行用例。所以,AI 最适合做的不是替代测试判断,而是参与测试分析过程。人负责判断质量,AI 负责辅助拆解和结构化。人负责识别风险,Superpowers 负责固化流程和提升效率。这才是 AI 对
AI 生成测试用例是一个非常适合测试团队尝试的 AI 场景。因为它贴近日常工作,价值容易感知,也很适合做 AI 测试能力的起点。但它也最容易被高估。看起来生成了几十条用例,不代表真的覆盖充分。格式像测试用例,不代表可以直接执行。语言很专业,不代表没有编造。哪些用例有价值;哪些规则漏掉了;哪些内容是编的;哪些场景需要补;哪些用例可以进入正式资产库。AI 可以帮你更快生成用例,但不能替你判断测试质量。
AI 功能越智能,越不能只看演示效果。因为演示通常展示的是:它能做什么。而测试必须追问的是:它什么时候不该做?它错了会影响谁?它有没有依据?它有没有权限?它有没有确认?它失败时会不会假装成功?这些问题,决定了 AI 功能能不能真正进入业务流程。所以测试工程师在 AI 上线前最重要的角色,不是简单点“通过”,而是守住风险边界。AI 可以提效,但上线必须有边界。
总结 PRD总结会议纪要总结制度文档总结项目报告总结故障复盘总结看起来很完整;语言也很顺;结构也没问题;但关键规则漏了。比如需求文档里写:报销金额超过 5000 元需直属上级审批,超过 20000 元还需财务复审。AI 总结成:系统会根据报销金额走不同审批流程。这句话不能说完全错,但对业务几乎不够用。5000 元;20000 元;对应审批角色。为什么长文档总结容易这样?因为“能把长文档放进模型上下
报告开头建议直接写结论,不要先铺背景。AI 测试报告最怕写成一句:功能基本可用。这句话看起来安全,但没有决策价值。产品知道能不能灰度研发知道先修什么测试知道下轮回归什么管理者知道风险是否可控这才是 AI 测试报告的核心价值。
这类功能重点是“能不能从沟通中提炼行动信息”。评分项分值说明主题识别准确性15是否抓住会议主线结论提炼准确性25是否识别最终结论待办提取完整性20是否提取事项、负责人、时间风险识别能力15是否识别风险和待确认项无幻觉15是否没有编造人员、时间、结论结构清晰度10是否适合直接同步给团队把讨论过程写成最终结论,把模糊表达写成明确承诺。AI 测试最怕的一句话是:感觉还可以。因为这句话既不能指导优化,也不
很多 RAG 产品 Demo 看起来都不错。因为标准问题、标准文档、标准表达下,AI 很容易答得像样。但真实业务里,用户不会总是按文档原话提问,知识库也不会永远干净整齐。问法变化文档复杂无答案版本冲突权限隔离多轮追问所以测试 RAG,不能只问几个标准问题,而要专门去验证这些最容易出问题的地方。这才是 RAG 测试真正的价值。
重点提炼关键信息完整性是否区分已确定和待确认是否适合目标读者Prompt 改版是 AI 功能优化里最常见、也最容易被低估的一件事。输出格式内容完整性拒答策略角色边界多轮稳定性工具调用行为所以只要 Prompt 进入产品流程,就应该像代码一样被管理、被回归、被验证。用样例说话,用评分判断,用回归守住质量。







