logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (6)--- Rollout

law-RL 是一个用于在线强化学习(Online RL)的框架,专门针对智能体工具使用场景。可以把 RL 训练管道划分为如下5 个阶段(会有重叠,依据不同系统而不同),本篇介绍Rollout。

#microsoft
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (6)--- Rollout

law-RL 是一个用于在线强化学习(Online RL)的框架,专门针对智能体工具使用场景。可以把 RL 训练管道划分为如下5 个阶段(会有重叠,依据不同系统而不同),本篇介绍Rollout。

#microsoft
从写代码到问问题:2026年,AI如何重构数据科学工作流

Anthropic那边的MCP生态确实热闹,接入了五千多个Server,但Google推的A2A协议也在抢地盘。当执行门槛被抹平,数据科学家的时间就被强制重新分配:我们得从代码细节里抽身,把精力砸在价值判断和结果解读上。我们现在通行的做法,是把团队踩过的坑封装成可复用的Skill。腾讯云那个案例的关键,根本不在于“代码写得更快”,而是“根本不需要人写代码”。它不再是个只会跑模型的“黑盒”,而是成了

#人工智能#重构
到底了