
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Soft Actor-Critic (SAC)是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法,和DDPG相比,Soft Actor-Critic使用的是随机策略stochastic policy,相比确定性策略具有一定的优势。Soft Actor-Critic兼具稳定性高和样本利用率高的优点。......
强化学习知识点目录
文章目录参考资料1. Q- table2. Model-free Prediction2.1 Monte-Carlo Policy Evaluation2.1.1 MC算法步骤2.1.2 incremental MC updates2.1.3 Difference between DP and MC for policy evaluation2.1.4 Advantages of MC over
强化学习知识点目录
文章目录参考资料前言1. Reward Shaping1.1 Curiosity1. ICM(intrinsic curiosity module)2. ICM设计2. Curriculum Learning2.1 Reverse Curriculum Generation3. Hierarchical RL参考资料https://datawhalechina.github.io/easy-rl/
文章目录参考资料前言1. Markov Process(MP)1.1 Markov Property1.2 Markov Process/Markov Chain1.3 Example of MP2. Markov Reward Process(MRP)2.1 Example of MRP2.2 Return and Value function2.3 Why Discount Factor2.3
文章目录参考资料思路1思路2思路34. 练习1. Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?参考资料https://datawhalechina.github.io/easy-rl/#/chapter8/chapter8思路1a=argmaxaQ(s,a)a=\arg \max _{a} Q(s, a) a=argamaxQ(s,
为了更好地阐述Dubins 曲线,这里我们简单地介绍一种车辆简化运动学模型。关于详细的车辆运动学模型介绍可以参考前文。
前文回顾基于采样的路径规划算法——RRT(含python实现)基于随机采样的路径规划算法适用于高维度空间,它们以概率完备性(当时间接近无限时一定有解)来代替完备性,从而提高搜索效率。基于随机采样的路径规划算法又分为单查询算法(single-query path planning)以及渐近最优算法(asymptotically optimal path planning),前者只要找到可行路径即可,
最近遇到了一个需求,我的代码仓库放在 Windows 上,想在 Mac 的 VSCode 中直接打开它、编辑、运行、调试。直接连接windows 的ssh 连接ip 地址没法连接成功,后来发现原来是还有些工具需要安装。Mac 与 Windows 必须处于同一个局域网,否则就需要利用内网穿透等一些方法去配置。







