logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习之Actor-Critic

强化学习Actor Critic1.概念2.优缺点3.原理4.代码DDPG1.概念2.优缺点A3CPPOActor Critic1.概念Actor是一个神经网络Critic也是一个神经网络,他们是不同的神经网络,Actor用于预测行为的概率,Critic是预测在这个状态下的价值。结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法,

#神经网络#机器学习#深度学习
强化学习之PPO

PPO1. 概念PPO:Policy Gradient不好确定Learning rate(step size)的问题,如果因为step size过大,学出来的Policy会一直乱动,不会收敛,但如果step size太小,对于完成训练,会很长时间,因此PPO利用了New Policy和Old Policy的比例,限制了New Policy的更新幅度,让Policy Gradient对稍微大的ste

#人工智能#算法
Data Centers Job Scheduling with Deep Reinforcement Learning

Data Centers Job Scheduling with Deep Reinforcement LearningData Centers Job Scheduling with Deep Reinforcement Learning1.介绍2.相关工作3.方法和问题表述3.1作业调度中的A2C3.2训练算法4.实验4.1实验计划Data Centers Job Scheduling wit

#机器学习#深度学习#tensorflow +1
强化学习之Actor-Critic

强化学习Actor Critic1.概念2.优缺点3.原理4.代码DDPG1.概念2.优缺点A3CPPOActor Critic1.概念Actor是一个神经网络Critic也是一个神经网络,他们是不同的神经网络,Actor用于预测行为的概率,Critic是预测在这个状态下的价值。结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法,

#神经网络#机器学习#深度学习
到底了