logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习经典算法笔记(十):使用粒子群算法训练Policy智能体

强化学习经典算法笔记(十):使用粒子群算法训练Policy智能体本文使用粒子群算法训练了一个小型Actor网络,共226个参数,完美解决了CartPole游戏。粒子群算法实现群体智能算法采用最简单的粒子群优化算法(PSO)。Python实现如下:class PSO(object):def __init__(self, population_size, max_steps, dim=2, x_bou

#机器学习#人工智能
强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现

强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现TD3算法简介TD3是Twin Delayed Deep Deterministic policy gradient algorithm的简称,双延迟深度确定性策略梯度。从名字看出,TD3算法是DDPG的改进版本。TD3相对于DDPG,主要采用了以下重要改进。Double networkCritic学习改进Acto

#深度学习#算法
VS Code连接远程服务器运行Python程序

安装插件安装VsCode官方插件Remote - SSHRemote - SSH: Editing Configuration FilesRemote - WSL ms-vscode-remote.remote-wsl WSL(远程桌面连接需要,因本文是SSH连接所以可有可无)建立连接安装插件后会提示重启VS Code,重启后会发现侧边栏和左下角均有变动想要建立新连接,我们点击侧边栏的图标鼠标移至

#python#ubuntu#ssh
强化学习系列文章(二十六):向量化环境Vectorized Environments

强化学习系列文章(二十六):向量化环境Vectorized EnvironmentsOpenAI Gym最近公布了官方API手册,可以趁机学习一下环境运行的并行化技术。https://www.gymlibrary.ml/pages/vector_api/indexVectorized Environments所谓“矢量化环境”,是运行多个(独立)子环境的环境,可以按顺序运行,也可以使用多处理并行运

Linux环境下如何查看内存CPU和GPU使用情况

查看Ubuntu下的内存CPUGPU使用情况

#linux
AttributeError: module 'tensorflow' has no attribute 'placeholder'等问题的解决

在新配置的Anaconda的environment中安装tensorflow时,有时虽然安装成功了,import也能成功,但是一些基本的功能是用不了的。经常报错比如:AttributeError: module ‘tensorflow’ has no attribute ‘placeholder’AttributeError: module ‘tensorflow’ has no attr...

深度学习之CUDA——翻译NVIDIA CUDA Installation Guide for Linux (1)

NVIDIA CUDA Installation Guide for LinuxLinux系统下的NVIDIA CUDA 安装指南(翻译官方手册)

#深度学习
Windows10安装Gym[atari]和Gym[box2d]失败的解决办法

pip install --no-index -f https://github.com/Kojoley/atari-py/releases atari_py

强化学习系列文章(三十):训练利器Gym Wrapper

强化学习系列文章(三十):训练利器Gym Wrapper在训练LunarLander环境的智能体算法时,学习到CleanRL的PPO代码,是我目前测试过训练速度最快的PPO版本。我认为主要贡献之一是采用了成熟的gym.wrapper技术,现总结这项技术的学习笔记。wrapper介绍主要分3类wrapper,分别是action,observation,reward。分别继承ActionWrapper

#人工智能
深度学习之群卷积(Group Convolution)

最近在看MSRA的王井东研究员的《Interleaved Group Convolutions for Deep Neural Networks》。论文中多次提到群卷积这个概念,所以特地学习了一下群卷积。群卷积最早出现于AlexNet中。是为了解决显存不够的问题,将网络部署在两张GTX 580显卡上训练,Alex认为group conv的方式能够增加 filter之间的对角相关性,而且能够减少..

#深度学习
    共 11 条
  • 1
  • 2
  • 请选择