logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习6——Policy-based RL(MC policy gradient)

Policy-based RL思路基于MC采样的更新方法:特点无偏但是噪声大,噪声是因为它是随机采样的,好的结果和坏的结果差距较大。解决噪声问题use temporal causality在时序上处理(REINFORCE)上式梯度更新变为下式,某时刻的奖励只与当前时刻相关,这样可以减少无必要的相关性:include a baseline再将上式变为下式,减去一个bias,这个bias可以取值为期望

#人工智能
强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)

文章目录前言无模型控制问题思路方法On-Policy learningMCSarsaOff-policy learningQ-learningOn-Policy learning 和 Off-policy learning的区别前言本文是学习周博雷老师的强化学习课程的心得体会。雷大佬的GItHub无模型控制问题​当我们不知道 MDP 模型的情况下,如何优化价值函数,得到最佳的策略。思路​这里和有模

#机器学习#人工智能
多车调度问题(大疆Robot Master)——ROS键盘控制失灵,小车无法收敛定位,路径规划出错

问题1 ROS键盘控制小车失灵具体就是:用键盘左右转小车,速度贼快,而且方向不正确,检查发现是控制模块失灵,有可能是内部测量元件(陀螺仪等)烧了,换了个控制模块解决。问题2小车无法收敛定位具体就是:一开始在A地点实验建图,后来改到B地点实验,在B建图正常,但是小车无法定位收敛,原因是建立的图的原点不正确,在相应的图文件中将原点设置在(0,0,0)解决。问题3 路径规划出错,车乱跑具体就是:在建的地

#bug
强化学习7——基于环境模型的RL方法

观周博雷老师课程有感何为模型状态转移概率:状态价值奖励:我们通常假设状态转移和价值之间是独立的如何学到模型通过环境交互,behavior policy采样一系列状态转移{S1,A1,R2,…,ST},使用监督的办法学习状态转移和价值函数。模型的种类Table Lookup ModelLinear Expectation ModelLinear Gaussian ModelGaussian Proc

#神经网络#机器学习#人工智能 +1
linux打开bash后报错:~/.bashrc: 没有那个文件或目录

解决方法cd /etcsudo gedit bash.bashrc然后找到错误的代码source ~/.bashrc上面的"~"符号是中文输入的,我们把它改成英文输入下的波浪号就可以了。

#ubuntu#linux
强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)

文章目录前言无模型控制问题思路方法On-Policy learningMCSarsaOff-policy learningQ-learningOn-Policy learning 和 Off-policy learning的区别前言本文是学习周博雷老师的强化学习课程的心得体会。雷大佬的GItHub无模型控制问题​当我们不知道 MDP 模型的情况下,如何优化价值函数,得到最佳的策略。思路​这里和有模

#机器学习#人工智能
卷积网络的学习(卷积核,通道,padding,stride等概念)

1 卷积网络的核心是:可以约减不必要的权值连接,引入稀疏或局部连接,带来权值共享策略大大地减少参数量相对的提升了数据量,从而可以避免过拟合;具有平移不变性,鲁棒性较好。卷积操作的示意图如下:卷积参数:stride:指的是窗口从当前位置到下一个位置,跳过的中间数据个数stride:zeropadding:将原始数据的周边补上0值的圈数。zeropadding:valid convolutions,s

强化学习6——Policy-based RL(MC policy gradient)

Policy-based RL思路基于MC采样的更新方法:特点无偏但是噪声大,噪声是因为它是随机采样的,好的结果和坏的结果差距较大。解决噪声问题use temporal causality在时序上处理(REINFORCE)上式梯度更新变为下式,某时刻的奖励只与当前时刻相关,这样可以减少无必要的相关性:include a baseline再将上式变为下式,减去一个bias,这个bias可以取值为期望

#人工智能
强化学习5——价值函数近似(VFA)

价值函数近似(VFA)​原因:状态太多,算力存储能力有限。只能通过插值的办法(神经网络)近似求得无法算到的状态价值函数值或状态动作价值函数值,或者是策略。如下:​方法:线性拟合,神经网络,决策树,邻近算法有模型无模型两种方法来代替,1. MC;2. TDMC近似方法TD近似方法价值动作函数近似(AVFA)有模型无模型...

#机器学习#python
    共 25 条
  • 1
  • 2
  • 3
  • 请选择