
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
策略梯度(Policy Gradient)
强化学习是一种机器学习范式,目标是让智能体(Agent)通过与环境(Environment)的交互,学习如何采取行动以最大化长期的累积奖励(Cumulative Reward)。与监督学习(给定输入-输出对)不同,强化学习没有明确的标签,智能体需要通过试错(Trial-and-Error)来发现哪些行动是“好的”。游戏:智能体在游戏中选择动作(如移动、跳跃),环境返回奖励(如得分)或惩罚(如游戏失
解决安装pytorch错误
python版本太高,降低版本即可。
解决AutoDL服务器无法访问huggingface或SSL证书验证错误
如果无法访问huggingface,可以先使用AutoDL的学术资源加速,在程序开头添加以下代码。如果启用学术资源加速后遇到SSL证书验证错误
到底了







