【强化学习】多智能体强化学习框架PYMARL
简介pymarl是由英国牛津大学计算机科学系机器学习研究组WhiRL部署的深度强化学习框架,实现包括以下算法:QMIX: QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement LearningCOMA: Counterfactual Multi-Agent Policy GradientsVD
·
简介
pymarl是由英国牛津大学计算机科学系机器学习研究组WhiRL部署的深度强化学习框架,实现包括以下算法:
- QMIX: QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
- COMA: Counterfactual Multi-Agent Policy Gradients
- VDN: Value-Decomposition Networks For Cooperative Multi-Agent Learning
- IQL: Independent Q-Learning
- QTRAN: QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning
PyMARL由PyTorch实现,使用SMAC作为运行环境。
安装
git clone https://github.com/oxwhirl/pymarl.git
# 构建Dockerfile:
cd docker
bash build.sh
# 安装StarCraft II and SMAC:
cd ..
bash install_sc2.sh # 将SC2下载到第三方文件夹并复制运行用的地图
# 文件requirements.txt可用来为虚拟环境安装数据包(不推荐)
运行实验
# 所有的配置文件都在src/config中
# --config对应的配置文件在src/config/algs中
# --env-config对应的配置文件在src/config/envs中
python3 src/main.py --config=qmix --env-config=sc2 with env_args.map_name=2s3z
使用Docker 容器 (container) 运行实验:
bash run.sh $GPU python3 src/main.py --config=qmix --env-config=sc2 with env_args.map_name=2s3z
所有结果存储在Results文件夹中。
用于SMAC Beta之前的配置文件有后缀_beta。
保存和加载学习的模型
Saving models
# 将learnt models保存到磁盘中,在文件夹result/models中
save_model = True
# 使用配置参数调节保存的频率
save_model_interval
Loading models
# 使用以下参数,调用learnt models。之后学习从对应timestep处进行。
checkpoint_path
观看StarCraft II replays
文档/支持
email: tabish.rashid@cs.ox.ac.uk
引用
M. Samvelyan, T. Rashid, C. Schroeder de Witt, G. Farquhar, N. Nardelli, T.G.J. Rudner, C.-M. Hung, P.H.S. Torr, J. Foerster, S. Whiteson. The StarCraft Multi-Agent Challenge, CoRR abs/1902.04043, 2019.
VDN算法
1. 简介
2. 代码
更多推荐
已为社区贡献1条内容
所有评论(0)