logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习代码从零开始学习-1

知识点:gym的核心接口是environment。环境中提供一下几种核心的方法:①reset():重置环境状态,回到初始环境,方便开始下一回合训练。②step(action):推进一个时间步长,粗俗的理解就是,你把这个动作action,作用到环境中,然后这个方法返回环境被作用后的一些状态啥玩意等东西。传入的参数是一个要执行到环境中的动作action,返回的参数有四个:<1>observ

#pytorch#机器学习#神经网络
强化学习之Sarsa算法最简单的实现代码-(环境:“CliffWalking-v0“悬崖问题)

1、算法简介直接上伪代码:伪代码解释:第一行:①设置动作空间A和状态空间S,以后你agent只能执行这A中有的动作,你环境的状态也就S中这么些;②初始化Q表格,也就是表格的横坐标为动作,纵坐标为状态,每个格子里面的值表示:纵坐标对应的状态s下,执行横坐标对应的动作a,后环境反馈回来的奖励值r(注意啊,这个奖励值先开是都初始化为0啥的,然后不断的episode,这整个表不断的更新,不断的确定哪个状态

文章图片
#深度学习#pytorch
强化学习之Sarsa算法最简单的实现代码-(环境:“CliffWalking-v0“悬崖问题)

1、算法简介直接上伪代码:伪代码解释:第一行:①设置动作空间A和状态空间S,以后你agent只能执行这A中有的动作,你环境的状态也就S中这么些;②初始化Q表格,也就是表格的横坐标为动作,纵坐标为状态,每个格子里面的值表示:纵坐标对应的状态s下,执行横坐标对应的动作a,后环境反馈回来的奖励值r(注意啊,这个奖励值先开是都初始化为0啥的,然后不断的episode,这整个表不断的更新,不断的确定哪个状态

文章图片
#深度学习#pytorch
强化学习之Sarsa算法最简单的实现代码-(环境:“CliffWalking-v0“悬崖问题)

1、算法简介直接上伪代码:伪代码解释:第一行:①设置动作空间A和状态空间S,以后你agent只能执行这A中有的动作,你环境的状态也就S中这么些;②初始化Q表格,也就是表格的横坐标为动作,纵坐标为状态,每个格子里面的值表示:纵坐标对应的状态s下,执行横坐标对应的动作a,后环境反馈回来的奖励值r(注意啊,这个奖励值先开是都初始化为0啥的,然后不断的episode,这整个表不断的更新,不断的确定哪个状态

文章图片
#深度学习#pytorch
‘open3d.open3d.geometry.PointCloud‘ object has no attribute ‘voxel_down_sample‘

AttributeError: 'open3d.open3d.geometry.PointCloud' object has no attribute 'voxel_down_sample'

#python#vscode#sublime text +3
AttributeError: ‘open3d.open3d.geometry.PointCloud‘ object has no attribute ‘select_by_index‘

AttributeError: 'open3d.open3d.geometry.PointCloud' object has no attribute 'select_by_index'

文章图片
#python#人工智能#深度学习 +3
pytorch学习之---squeeze()和unsqueeze()函数功能及使用

首先这个squeeze单词啥意思:1.squeeze(1)和squeeze(-1)作用:两者的效果一样,都是给张量tensor降维,但不是啥张量都可以用这两个函数来降维,它只能降维一种情况下张量的维度。就是我的张量tensor是一个n*1维度的张量,例如:张量[[1], [2], [3]]是一个3*1维的,调用这两个函数后效果如图:但是如果不是n*1的这种2维张量的话,如本就是1维的,或者m*n(

#python#pytorch#人工智能
到底了