
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
长期运行Agent,指能够不间断、稳定执行耗时任务、多阶段复杂任务、持续值守类任务的智能体,区别于单次交互、短时执行的简易Agent,常用于自动化运维、长期项目执行、持续监控、跨流程自动化、长时推理等场景。这类Agent不能单纯依赖短时上下文和单次推理,必须解决稳定性、记忆、容错、资源管控等一系列难题,下文全面梳理核心挑战与落地实现方案。
定位:经典on-policy Actor-Critic 强化学习,RLHF 早期标准方案。核心原理用Critic(价值网络)估计状态价值,计算优势函数(GAE)。带clip 裁剪约束策略更新幅度,防止训练崩溃。加KL 散度约束,避免偏离参考(SFT)模型。组件:策略(Actor)+ 价值(Critic)+ 奖励模型(RM)+ 参考模型。PPO:最稳但最贵,全流程强化学习。DPO:最便宜好用,直接学
这里来说一下用upload提交文件的两种方式:用action='url’方式用:http-request方式提交,element官方的解释:http-request覆盖默认的上传行为,可以自定义上传的实现第一种体提交方式,直接在action属性中写出后台地址即可,但是这种方式无法获取后台响应结果要想提交后获取后台的相应结果,应该用第二种方式:<el-upload class="upload-
1.axios.get:字符串拼接法:前端传送数据:data: {message:''//当然,message也可以为其他类型的变量,如:int,array},axios.get("/haha?message="+this.message).then((response)=>{console.log("发送成功");},







