qq_42498154 个人主页

@qq_42498154

qq_42498154

2023-06-07 13:50:58 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习之Actor-Critic

强化学习Actor Critic1.概念2.优缺点3.原理4.代码DDPG1.概念2.优缺点A3CPPOActor Critic1.概念Actor是一个神经网络Critic也是一个神经网络，他们是不同的神经网络，Actor用于预测行为的概率，Critic是预测在这个状态下的价值。结合了Policy Gradient（Actor）和Function Approximation（Critic）的方法，

#神经网络 #机器学习 #深度学习

强化学习之DQN

DQN一.算法详解1.1.经验池1.2.神经网络计算Q值1.3.目标函数（Q-target）二.马尔科夫决策2.1要求2.2 由5个元素构成2.3过程三.Bellman方程四.算法流程4.1公式五.代码详解一.算法详解DQN是Q-learning的改进，两者都是基于值迭代的算法。但是在Q-learning中，当状态和动作空间是离散且维数是不变时，可使用Q-table储存每个状态动作对应的Q值，而当

#算法 #深度学习

强化学习之Policy Gradient

策略梯度1.什么是策略梯度2.Policy Gradient算法更新3.Policy Gradient思维决策1.什么是策略梯度1.1.策略梯度是属于强化学习的一种算法，他是Q-learning和DQN的改进，强化学习是通过奖惩来不断学习的机制，有学习奖惩的值，有根据价值选行为的Q-learning和DQN，也有不通过奖励值直接输出动作的概率Policy Gradients1.2.Policy G

#深度学习

Data Centers Job Scheduling with Deep Reinforcement Learning

Data Centers Job Scheduling with Deep Reinforcement LearningData Centers Job Scheduling with Deep Reinforcement Learning1.介绍2.相关工作3.方法和问题表述3.1作业调度中的A2C3.2训练算法4.实验4.1实验计划Data Centers Job Scheduling wit

#机器学习 #深度学习 #tensorflow +1

强化学习之Actor-Critic

#神经网络 #机器学习 #深度学习

到底了