Forrit 个人主页

@Forrit

Forrit

2023-08-29 16:16:15 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Agent长期运行（Long-Running Tasks）实现方案与核心挑战

长期运行Agent，指能够不间断、稳定执行耗时任务、多阶段复杂任务、持续值守类任务的智能体，区别于单次交互、短时执行的简易Agent，常用于自动化运维、长期项目执行、持续监控、跨流程自动化、长时推理等场景。这类Agent不能单纯依赖短时上下文和单次推理，必须解决稳定性、记忆、容错、资源管控等一系列难题，下文全面梳理核心挑战与落地实现方案。

#人工智能 #大数据 #深度学习

大模型微调之——PPO、DPO、GRPO 核心区别对比

定位：经典on-policy Actor-Critic 强化学习，RLHF 早期标准方案。核心原理用Critic（价值网络）估计状态价值，计算优势函数（GAE）。带clip 裁剪约束策略更新幅度，防止训练崩溃。加KL 散度约束，避免偏离参考（SFT）模型。组件：策略（Actor）+ 价值（Critic）+ 奖励模型（RM）+ 参考模型。PPO：最稳但最贵，全流程强化学习。DPO：最便宜好用，直接学

#transformer

用axios结合element的upload进行文件上传

这里来说一下用upload提交文件的两种方式：用action='url’方式用:http-request方式提交,element官方的解释：http-request覆盖默认的上传行为，可以自定义上传的实现第一种体提交方式，直接在action属性中写出后台地址即可，但是这种方式无法获取后台响应结果要想提交后获取后台的相应结果，应该用第二种方式：<el-upload class="upload-

#java

axios的传参问题

1.axios.get:字符串拼接法：前端传送数据：data: {message:''//当然，message也可以为其他类型的变量,如：int，array},axios.get("/haha?message="+this.message).then((response)=>{console.log("发送成功");},

#json #ajax

到底了