logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(RL强化学习)PPO

文章目录PPO(proximal Policy Optimization)On-policy Off-policy为什么需要Off-PolicyImportant SamplingOff-policy的gradientPPOPPO(proximal Policy Optimization)On-policy Off-policyOn-policy:跟环境互动的agent 和 要learn的agen

#自动驾驶#visual studio#c++
(Visual Navigation)路径规划算法(三)RRT RRT* Informed RRT*及前三种算法总结

文章目录RRT实现过程算法缺点RRT*实现过程Informed RRT*RRT* 和 Informed RRT*的结果比较具体实现路径规划总结RRT算法全称“快速扩展随机树算法”通过随机地图取点的方法进行路径规划RRT实现过程① 在地图中随机选择一个点 Xrand② 当前点设置为 Xnear③ 沿着 Xnear和Xrand连线方向 行进步长StepSize 且没有遇到障碍④ 第二次采样⑤ 行进步长

#算法#css3#前端
(RL强化学习)Sparse Reward

文章目录Sparse RewardReward ShapingCuriosityCurriculum LearningReverse Curriculum GenerationHierarchical RLSparse Reward很多情况下环境中的reward是稀疏的 agent很难得到rewardReward Shaping开发者刻意设计rewardexample:比如小孩学习如第二种情况要是

(RL强化学习)Imitation Learning

文章目录Imitation learningBahavior CloningInverse Reinforcement LearningFrameworkImitation learningactor 可以跟环境互动,actor无法从环境得到reward只有一个expert论证怎么解决这个问题人为设定reward可能造成不可控的问题Bahavior Cloningexpert做什么 actor就做

#机器学习
(Habitat)基本功能代码实现

Episode以一个导航任务为例 一个episode包含场景信息 agent起始位置和角度 目标信息等信息完成一个episode的循环步骤1 env = habitat.Env(config=habitat.get_config("configs/tasks/pointnav.yaml"))#初始化环境2 observations = env.reset()#获取环境的观察对象并重置环境3 #cr

#计算机视觉#人工智能
(深度学习)Self-attention

文章目录self-attention三种seq输入输出类型Each vector has a labelSelf-attention得到一个seq输出过程上述矩阵化Multi-head Seft-attentionposition encodingApplicationself-attention三种seq输入输出类型Each vector has a labelSequence labeling

#visual studio#c++#linux
(ROS)差分轮式机械臂机器人(三)Moveit和Gazebo联合仿真

文章目录项目基础项目源码控制框架Gazebo控制插件:position_controllers/JointTrajectoryController关节轨迹控制器Moveit控制插件:FollowJointTrajectory加载全部配置文件执行项目基础(ROS)差分轮式机械臂机器人(二)六轴机械臂Moveit配置&深度相机kinect配置(ROS)差分轮式机械臂机器人(一)模型搭建项目源码

文章图片
#自动驾驶#人工智能#机器学习
(目标检测)基于opencv dnn模块的yolov5部署

这边文章将介绍基于dnn模块的yolov5 onnx模型的部署 包括读取模型和数据处理和后处理先给出整个项目的源码yolov5版本为4.0opencv 为 4.5.2不同的版本此源码可能会报错 由于opencv版本报错解决办法部署需要一些yolov5的基本知识支持 网上比比皆是opencv dnn模块的使用这里并不详细介绍 这里给出一篇详细的dnn模块的使用方法关于深度学习实时检测的三种方法(三)

#opencv#目标检测#dnn
(ROS)差分轮式机械臂机器人(三)Moveit和Gazebo联合仿真

文章目录项目基础项目源码控制框架Gazebo控制插件:position_controllers/JointTrajectoryController关节轨迹控制器Moveit控制插件:FollowJointTrajectory加载全部配置文件执行项目基础(ROS)差分轮式机械臂机器人(二)六轴机械臂Moveit配置&深度相机kinect配置(ROS)差分轮式机械臂机器人(一)模型搭建项目源码

文章图片
#自动驾驶#人工智能#机器学习
(RL强化学习)A2C PPO DDPG理论和具体算法流程

文章目录ACPPO(proximal Policy Optimization)DDPG(deep deterministic policy gradient)深度确定性策略梯度算法ps:笔记参考了强化学习–从DQN到PPO, 流程详解白话强化学习ACActor:输入状态S 输出策略选择动作Critic:负责计算每个动作的分数TD-errorTD-error就是Actor带权重更新的值Critic只

    共 21 条
  • 1
  • 2
  • 3
  • 请选择