
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
作为测试开发工程师:如何对 Agent(Workflow 类)做一套“能上线”的测评体系
每类任务明确成功条件与失败条件明确动作边界与权限规则workflow agent 今天像聪明助理,明天可能像会乱按按钮的小朋友——而且按钮还连着生产数据库。测评要从“回答质量”升级为“验收 + 故障演练 + 回归门禁 + 线上监控”,才真的能上线、能长期跑。
到底了

该用户还未填写简介
暂无可提供的服务
每类任务明确成功条件与失败条件明确动作边界与权限规则workflow agent 今天像聪明助理,明天可能像会乱按按钮的小朋友——而且按钮还连着生产数据库。测评要从“回答质量”升级为“验收 + 故障演练 + 回归门禁 + 线上监控”,才真的能上线、能长期跑。