logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

作为测试开发工程师:如何对 Agent(Workflow 类)做一套“能上线”的测评体系

每类任务明确成功条件与失败条件明确动作边界与权限规则workflow agent 今天像聪明助理,明天可能像会乱按按钮的小朋友——而且按钮还连着生产数据库。测评要从“回答质量”升级为“验收 + 故障演练 + 回归门禁 + 线上监控”,才真的能上线、能长期跑。

#AIGC#华为snap
到底了