顺利的裙子个人主页

@JZEAc293p

顺利的裙子

2026-06-22 20:17:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

技能进阶与Claude Design初体验

举个例子：做游戏会有很多弹窗——游戏引导要弹窗，每个小游戏有弹窗。

#人工智能

技能进阶与Claude Design初体验

举个例子：做游戏会有很多弹窗——游戏引导要弹窗，每个小游戏有弹窗。

#人工智能

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (3)--- 总体思考目录

如果把 Agentic RL 理解成一个在真实环境里持续交互、持续采样、持续更新的策略学习系统，那么最重要的就不再是这一步用哪种 RL 算法，而是训练闭环能否长期守住三个更底层的条件。第一不变量不是说"模型要随机”，而是说：在每种情境下，模型必须仍然"知道"多种有意义的应对方式，并且真实地有能力选择它们。三种方法没有区别 --- 这是OpenClaw框架层面的选择(--no-entropy-reg

#人工智能 #算法

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (3)--- 总体思考目录

#人工智能 #算法

到底了