logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

自动驾驶强化学习

可提供的服务

暂无可提供的服务

【学习强化学习】十一、Soft Actor-Critic

Soft Actor-Critic (SAC)是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法,和DDPG相比,Soft Actor-Critic使用的是随机策略stochastic policy,相比确定性策略具有一定的优势。Soft Actor-Critic兼具稳定性高和样本利用率高的优点。......

#人工智能#python#机器学习
【学习强化学习】总目录

强化学习知识点目录

#学习
【学习强化学习】三、Q learning和Sarsa算法

文章目录参考资料1. Q- table2. Model-free Prediction2.1 Monte-Carlo Policy Evaluation2.1.1 MC算法步骤2.1.2 incremental MC updates2.1.3 Difference between DP and MC for policy evaluation2.1.4 Advantages of MC over

#python
【学习强化学习】总目录

强化学习知识点目录

#学习
【 学习强化学习】十二、针对稀疏奖励的改进

文章目录参考资料前言1. Reward Shaping1.1 Curiosity1. ICM(intrinsic curiosity module)2. ICM设计2. Curriculum Learning2.1 Reverse Curriculum Generation3. Hierarchical RL参考资料https://datawhalechina.github.io/easy-rl/

#机器学习#深度学习#算法
【学习强化学习】二、MDP过程

文章目录参考资料前言1. Markov Process(MP)1.1 Markov Property1.2 Markov Process/Markov Chain1.3 Example of MP2. Markov Reward Process(MRP)2.1 Example of MRP2.2 Return and Value function2.3 Why Discount Factor2.3

#机器学习#概率论#算法
【学习强化学习】八、连续动作下的DQN设计

文章目录参考资料思路1思路2思路34. 练习1. Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?参考资料https://datawhalechina.github.io/easy-rl/#/chapter8/chapter8思路1a=arg⁡max⁡aQ(s,a)a=\arg \max _{a} Q(s, a) a=argamax​Q(s,

#机器学习#深度学习#算法
【自动驾驶】路径规划—— Dubins 曲线推导(基于向量的方法)

为了更好地阐述Dubins 曲线,这里我们简单地介绍一种车辆简化运动学模型。关于详细的车辆运动学模型介绍可以参考前文。

#自动驾驶#机器学习#算法
【自动驾驶】基于采样的路径规划算法——RRT-Connect(含python实现 | c++实现)

前文回顾基于采样的路径规划算法——RRT(含python实现)基于随机采样的路径规划算法适用于高维度空间,它们以概率完备性(当时间接近无限时一定有解)来代替完备性,从而提高搜索效率。基于随机采样的路径规划算法又分为单查询算法(single-query path planning)以及渐近最优算法(asymptotically optimal path planning),前者只要找到可行路径即可,

#算法#python#自动驾驶
在 Mac/linux 的 VSCode 中使用Remote-SSH远程连接 Windows

最近遇到了一个需求,我的代码仓库放在 Windows 上,想在 Mac 的 VSCode 中直接打开它、编辑、运行、调试。直接连接windows 的ssh 连接ip 地址没法连接成功,后来发现原来是还有些工具需要安装。Mac 与 Windows 必须处于同一个局域网,否则就需要利用内网穿透等一些方法去配置。

#macos#linux#vscode +1
    共 99 条
  • 1
  • 2
  • 3
  • 10
  • 请选择