fangzhang233 个人主页

@fangzhang233

fangzhang233

2023-08-01 03:12:34 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

[强化学习-探索] RND 尝试

第二，agent 一旦死了，reward就会很低，所以我要像文章里一样，不能搞episodic的，而是要死了直接重开。因为伽马值很高，所以来回蠕动的话，尽管每一步的reward很小，只要狗的时间足够长，还是可以得到一个不错的回报。上面是训练的最后一步，可以看到，尽管episode已经2690步了，还是没出第一个房间，agent只是在来回蠕动。似乎效果很不好啊，一直卡在局部最优不动，好像很怕死的样子

#python #conda #web3.py +2

到底了