
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
强化学习经典算法笔记(十):使用粒子群算法训练Policy智能体本文使用粒子群算法训练了一个小型Actor网络,共226个参数,完美解决了CartPole游戏。粒子群算法实现群体智能算法采用最简单的粒子群优化算法(PSO)。Python实现如下:class PSO(object):def __init__(self, population_size, max_steps, dim=2, x_bou
强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现TD3算法简介TD3是Twin Delayed Deep Deterministic policy gradient algorithm的简称,双延迟深度确定性策略梯度。从名字看出,TD3算法是DDPG的改进版本。TD3相对于DDPG,主要采用了以下重要改进。Double networkCritic学习改进Acto
安装插件安装VsCode官方插件Remote - SSHRemote - SSH: Editing Configuration FilesRemote - WSL ms-vscode-remote.remote-wsl WSL(远程桌面连接需要,因本文是SSH连接所以可有可无)建立连接安装插件后会提示重启VS Code,重启后会发现侧边栏和左下角均有变动想要建立新连接,我们点击侧边栏的图标鼠标移至
强化学习系列文章(二十六):向量化环境Vectorized EnvironmentsOpenAI Gym最近公布了官方API手册,可以趁机学习一下环境运行的并行化技术。https://www.gymlibrary.ml/pages/vector_api/indexVectorized Environments所谓“矢量化环境”,是运行多个(独立)子环境的环境,可以按顺序运行,也可以使用多处理并行运
查看Ubuntu下的内存CPUGPU使用情况
在新配置的Anaconda的environment中安装tensorflow时,有时虽然安装成功了,import也能成功,但是一些基本的功能是用不了的。经常报错比如:AttributeError: module ‘tensorflow’ has no attribute ‘placeholder’AttributeError: module ‘tensorflow’ has no attr...
NVIDIA CUDA Installation Guide for LinuxLinux系统下的NVIDIA CUDA 安装指南(翻译官方手册)
pip install --no-index -f https://github.com/Kojoley/atari-py/releases atari_py
强化学习系列文章(三十):训练利器Gym Wrapper在训练LunarLander环境的智能体算法时,学习到CleanRL的PPO代码,是我目前测试过训练速度最快的PPO版本。我认为主要贡献之一是采用了成熟的gym.wrapper技术,现总结这项技术的学习笔记。wrapper介绍主要分3类wrapper,分别是action,observation,reward。分别继承ActionWrapper
最近在看MSRA的王井东研究员的《Interleaved Group Convolutions for Deep Neural Networks》。论文中多次提到群卷积这个概念,所以特地学习了一下群卷积。群卷积最早出现于AlexNet中。是为了解决显存不够的问题,将网络部署在两张GTX 580显卡上训练,Alex认为group conv的方式能够增加 filter之间的对角相关性,而且能够减少..