爱看烟花的码农个人主页

@Rhett_Butler0922

爱看烟花的码农

2024-05-05 15:38:52 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

策略梯度（Policy Gradient）

强化学习是一种机器学习范式，目标是让智能体（Agent）通过与环境（Environment）的交互，学习如何采取行动以最大化长期的累积奖励（Cumulative Reward）。与监督学习（给定输入-输出对）不同，强化学习没有明确的标签，智能体需要通过试错（Trial-and-Error）来发现哪些行动是“好的”。游戏：智能体在游戏中选择动作（如移动、跳跃），环境返回奖励（如得分）或惩罚（如游戏失

解决安装pytorch错误

python版本太高，降低版本即可。

#pytorch #python #conda +1

解决AttributeError: module ‘d2l.torch‘ has no attribute ‘load_data_time_machine‘

原因：d2l版本过高。

#深度学习 #人工智能 #python +1

解决AutoDL服务器无法访问huggingface或SSL证书验证错误

如果无法访问huggingface，可以先使用AutoDL的学术资源加速，在程序开头添加以下代码。如果启用学术资源加速后遇到SSL证书验证错误

#服务器 #ssl #linux

到底了