logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

markdown 常用符号大全

markdown 常用符号大全,包括数学符号,逻辑符号,运算符号,多行公式,希腊字母,矩阵,括号,表格,真值表、流程图

#编辑器#经验分享
【强化学习】使用Q-Learning 和 Sara 解决GridWorld 炸弹环境

使用Q-Learning 和Sara算法解决GridWorld炸弹环境,分为两个类:gridWorld.py和Agent.py:环境类:继承gym.Wrapper,主要实现了render(显示每次的地图)。step(和环境交互,计算奖励值)Agent类:包括两种算法,主要实现了learn(学习方法,每次更新Q-table)predict(根据输入的观察值,预测输出的动作)。sample(根据输入的

文章图片
#python#机器学习
到底了