logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

技能进阶与Claude Design初体验

举个例子:做游戏会有很多弹窗——游戏引导要弹窗,每个小游戏有弹窗。

#人工智能
技能进阶与Claude Design初体验

举个例子:做游戏会有很多弹窗——游戏引导要弹窗,每个小游戏有弹窗。

#人工智能
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (3)--- 总体思考目录

如果把 Agentic RL 理解成一个在真实环境里持续交互、持续采样、持续更新的策略学习系统,那么最重要的就不再是这一步用哪种 RL 算法,而是训练闭环能否长期守住三个更底层的条件。第一不变量不是说"模型要随机”,而是说:在每种情境下,模型必须仍然"知道"多种有意义的应对方式,并且真实地有能力选择它们。三种方法没有区别 --- 这是OpenClaw框架层面的选择(--no-entropy-reg

#人工智能#算法
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (3)--- 总体思考目录

如果把 Agentic RL 理解成一个在真实环境里持续交互、持续采样、持续更新的策略学习系统,那么最重要的就不再是这一步用哪种 RL 算法,而是训练闭环能否长期守住三个更底层的条件。第一不变量不是说"模型要随机”,而是说:在每种情境下,模型必须仍然"知道"多种有意义的应对方式,并且真实地有能力选择它们。三种方法没有区别 --- 这是OpenClaw框架层面的选择(--no-entropy-reg

#人工智能#算法
到底了