hhy_csdn 个人主页

@hhy_csdn

hhy_csdn

2022-12-06 17:47:02 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习经典算法笔记(二十)：交叉熵方法Cross Entropy Method

强化学习经典算法笔记(二十)：交叉熵方法Cross Entropy Method本次补上一个经典RL算法笔记。感谢 https://the0demiurge.blogspot.com/2017/08/cross-entropy-method-cem.html感谢 https://en.wikipedia.org/wiki/Cross-entropy_methodCEM基本概念：交叉熵方法是一种蒙特

#机器学习 #深度学习

强化学习经典算法笔记(十一)：近端策略优化算法（PPO）实现，基于A2C（上）

强化学习经典算法笔记(十一)：近端策略优化算法（PPO）实现，基于A2CPPO算法是一种On-policy算法，可以被用于连续空间任务和离散空间任务。在OpenAI发表的PPO原始论文中，关于新旧策略的相似程度，有两种处理办法，一个是Penalty，一个是Clip。Penalty是将新旧策略的KL散度作为一个罚项加入到目标函数中，避免了TRPO中的那种硬性约束。Clip是将新旧策略做比值，将这一比

#深度学习 #机器学习

强化学习经典算法笔记(十八)：离散动作空间REINFORCE算法

强化学习经典算法笔记(十八)：离散动作空间REINFORCE算法在文章强化学习经典算法笔记(七)：策略梯度算法Policy Gradient中介绍了连续动作空间的Policy Gradient算法，最近需要用到离散空间的版本，遂写了个CartPole-v1上的PG代码。相比于原来的PG，改动主要在select_action函数和update_parameters函数。在原来的版本中，由于动作是一个

#深度学习 #神经网络

强化学习系列文章(三十一)：更好用的PPO算法

强化学习PPO算法优质学习代码

#算法 #深度学习 #pytorch

强化学习经典算法笔记(十三)：深度确定性策略梯度算法DDPG的pytorch实现

强化学习经典算法笔记(十三)：深度确定性策略梯度算法DDPG的pytorch实现一、DDPG算法的要点DDPG适用于连续动作空间的控制任务DDPG解决了DQN难以对连续动作估计Q值的问题确定性策略是指：在某个状态sts_tst所采取的动作是确定的。由此带来了Bellman方程的改变。由Qπ(st,at)=Est+1∼E,at∼π[r(st,at)+γEπ[Qπ(st+1,at+1)]]Q^{\p

#深度学习

强化学习经典算法笔记(十二)：近端策略优化算法（PPO）实现，基于A2C（下）

强化学习经典算法笔记(十二)：近端策略优化算法（PPO）实现，基于A2C本篇实现一个基于A2C框架的PPO算法，应用于连续动作空间任务。import torchimport torch.nn as nnfrom torch.distributions import MultivariateNormalimport gymimport numpy as npdevice = torch.device

#机器学习 #深度学习

强化学习经典算法笔记(十)：使用粒子群算法训练Policy智能体

强化学习经典算法笔记(十)：使用粒子群算法训练Policy智能体本文使用粒子群算法训练了一个小型Actor网络，共226个参数，完美解决了CartPole游戏。粒子群算法实现群体智能算法采用最简单的粒子群优化算法（PSO）。Python实现如下：class PSO(object):def __init__(self, population_size, max_steps, dim=2, x_bou

#机器学习 #人工智能

强化学习经典算法笔记(十四)：双延迟深度确定性策略梯度算法TD3的PyTorch实现

强化学习经典算法笔记(十四)：双延迟深度确定性策略梯度算法TD3的PyTorch实现TD3算法简介TD3是Twin Delayed Deep Deterministic policy gradient algorithm的简称，双延迟深度确定性策略梯度。从名字看出，TD3算法是DDPG的改进版本。TD3相对于DDPG，主要采用了以下重要改进。Double networkCritic学习改进Acto

#深度学习 #算法

VS Code连接远程服务器运行Python程序

安装插件安装VsCode官方插件Remote - SSHRemote - SSH: Editing Configuration FilesRemote - WSL ms-vscode-remote.remote-wsl WSL(远程桌面连接需要，因本文是SSH连接所以可有可无)建立连接安装插件后会提示重启VS Code,重启后会发现侧边栏和左下角均有变动想要建立新连接,我们点击侧边栏的图标鼠标移至

#python #ubuntu #ssh

强化学习系列文章(二十六)：向量化环境Vectorized Environments

强化学习系列文章(二十六)：向量化环境Vectorized EnvironmentsOpenAI Gym最近公布了官方API手册，可以趁机学习一下环境运行的并行化技术。https://www.gymlibrary.ml/pages/vector_api/indexVectorized Environments所谓“矢量化环境”，是运行多个（独立）子环境的环境，可以按顺序运行，也可以使用多处理并行运

共 17 条

请选择