
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: 测试AI产品时,Prompt相当于需求文档,需重点审查其设计质量,包括角色设定、行为边界、格式约束等关键项。测试流程分为五步:1. 审查Prompt,通过数据验证疑点并输出质量报告;2. 构建数据集,针对每条规则设计正向、反向及边界测试用例;3. 执行测试,记录格式、安全、逻辑等BadCase;4. 分层反馈,区分Bug、优化建议与安全风险,均需附测试数据;5. 回归验证,确保修复有效且无
摘要: 测试AI产品时,Prompt相当于需求文档,需重点审查其设计质量,包括角色设定、行为边界、格式约束等关键项。测试流程分为五步:1. 审查Prompt,通过数据验证疑点并输出质量报告;2. 构建数据集,针对每条规则设计正向、反向及边界测试用例;3. 执行测试,记录格式、安全、逻辑等BadCase;4. 分层反馈,区分Bug、优化建议与安全风险,均需附测试数据;5. 回归验证,确保修复有效且无
AI模型在用户信息模糊或存在健康风险时,容易出现"脑补"条件直接给出方案的问题。通过引入思维链技术(Chain of Thought),要求模型先分析再回答,可显著提升输出质量。测试对比显示:在模糊信息场景差异最大,加思维链后模型会先评估信息完整性;风险识别场景结构化提升明显;复杂条件场景差异较小。建议在模糊输入、风险评估等场景强制使用思维链,并配合XML标签实现自动化验证。思
本文探讨了AI产品中模型返回JSON格式数据时前端解析报错的问题。通过实际案例展示了问题现象:模型输出看似JSON实则包含markdown代码块标记,导致前端JSON.parse()失败。文章详细记录了从复现问题到定位根因的全过程,指出prompt中模糊的格式要求是根本原因。解决方案包括:1)严格约束prompt格式规范;2)前端添加防御性解析逻辑;3)建立自动化验证机制。关键发现:模型输出的&q
本文系统探讨了AI测试中的Prompt安全风险与防护策略。文章首先解析Prompt的四大核心要素:SystemPrompt的行为规则、清晰指令的重要性、角色设定的边界影响以及XML标签的数据隔离作用。通过运动训练助手案例,作者发现即使采用XML标签隔离,模型仍可能泄露系统提示词,并归纳出三种攻击层级:明文指令覆盖(易防御)、伪装型注入(高威胁)和多轮渐进攻击(最难防)。文章详细评估了Prompt泄
本文探讨了构建Agent系统安全攻击Case库的必要性与方法。针对Agent系统模型行为随版本变化的特点(如Prompt调整、工具新增等),提出需要建立可重复、可回归、可自动化的安全测试机制。文章详细介绍了安全Case库的结构化设计(包含用例编号、攻击类型、攻击输入和期望行为等字段),列举了Prompt注入、工具注入、数据泄露和权限绕过等常见攻击类型,并建议以JSON/YAML/CSV格式维护案例
AI 辅助测试,不是让 AI 直接替我生成需求分析、测试点和脚本。更核心的是,先把测试判断体系沉淀下来,再通过规则、流程和反馈机制,让 AI 逐步按我的思路执行,并持续优化。工具会变,模型会变,平台也会变。但只要判断框架和反馈闭环还在,这套能力就能继续迁移。
在自动化测试里,脚本写出来并不难,真正麻烦的是后续维护。很多失败并不是真正的功能缺陷,而是 locator 变化、placeholder 调整、断言文本不一致这类高频、低难、重复性的维护问题。这次实践没有继续围绕“AI 会不会生成 Playwright 脚本”去做,而是换了一个更贴近测试日常的问题:AI 能不能参与自动化测试维护流程,完成失败归因、最小修复和回归验证这条闭环。本文记录这次最小实践的
你没办法说哪个”对”、哪个”错”,你只能去定义——什么范围内的回答是可接受的,然后想办法把系统行为控制在这个范围里。造数接口、清数接口、日志查询、状态校验、回归执行入口,这些能力如果没有被标准化,AI就只能给建议,没办法真正帮你做事。状态写入不稳定,后续的行为和输出都不可信。∙不再是”发现问题报Bug”,而是”定义规则,让问题可复现、可回归”输出层:结果是否可信,有没有幻觉,该拒答的时候有没有拒答
在 AI Agent 系统中,大模型并不会直接执行系统操作,而是通过 Tool 来完成业务逻辑。因此理解,是理解 AI 系统行为的关键。本文重点拆解。核心问题包括:Agent是怎么触发Tool的?Function Calling是怎么工作的?如何控制模型调用Tool?如果模型乱调用怎么办?







