
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
markdown 常用符号大全
markdown 常用符号大全,包括数学符号,逻辑符号,运算符号,多行公式,希腊字母,矩阵,括号,表格,真值表、流程图
【强化学习】使用Q-Learning 和 Sara 解决GridWorld 炸弹环境
使用Q-Learning 和Sara算法解决GridWorld炸弹环境,分为两个类:gridWorld.py和Agent.py:环境类:继承gym.Wrapper,主要实现了render(显示每次的地图)。step(和环境交互,计算奖励值)Agent类:包括两种算法,主要实现了learn(学习方法,每次更新Q-table)predict(根据输入的观察值,预测输出的动作)。sample(根据输入的

到底了







