logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

策略梯度(Policy Gradient)

强化学习是一种机器学习范式,目标是让智能体(Agent)通过与环境(Environment)的交互,学习如何采取行动以最大化长期的累积奖励(Cumulative Reward)。与监督学习(给定输入-输出对)不同,强化学习没有明确的标签,智能体需要通过试错(Trial-and-Error)来发现哪些行动是“好的”。游戏:智能体在游戏中选择动作(如移动、跳跃),环境返回奖励(如得分)或惩罚(如游戏失

解决安装pytorch错误

python版本太高,降低版本即可。

#pytorch#python#conda +1
解决AutoDL服务器无法访问huggingface或SSL证书验证错误

如果无法访问huggingface,可以先使用AutoDL的学术资源加速,在程序开头添加以下代码。如果启用学术资源加速后遇到SSL证书验证错误

#服务器#ssl#linux
到底了