
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
[强化学习-探索] RND 尝试
第二,agent 一旦死了,reward就会很低,所以我要像文章里一样,不能搞episodic的,而是要死了直接重开。因为伽马值很高,所以来回蠕动的话,尽管每一步的reward很小,只要狗的时间足够长,还是可以得到一个不错的回报。上面是训练的最后一步,可以看到,尽管episode已经2690步了,还是没出第一个房间,agent只是在来回蠕动。似乎效果很不好啊,一直卡在局部最优不动,好像很怕死的样子

到底了