
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文章目录参考资料1. 日志1.1 错误日志1.2 二进制日志1. 介绍2. 日志格式3. 日志查看4. 日志删除1.3 查询日志1.4 慢查询日志2. 主从复制2.1 概述2.2 原理2.3 搭建1. 服务器2. 主库配置3. 从库配置4. 开启同步操作5. 查看主从同步状态2.4 测试参考资料https://www.bilibili.com/video/BV1Kr4y1i7ru?p=153&am
A*(A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法,也是解决许多搜索问题的有效算法。广泛应用于室内机器人路径搜索、游戏动画路径搜索等A*算法结合了贪心算法(深度优先)和Dijkstra算法(广度优先),是一种启发式搜索算法。它使用一个路径优劣评价公式为:f(n)=g(n)+h(n)f(n)=g(n)+h(n)f(n)=g(n)+h(n)A*算法需要维护两个状态表,分别称为表和
文章目录参考资料1. Q- table2. Model-free Prediction2.1 Monte-Carlo Policy Evaluation2.1.1 MC算法步骤2.1.2 incremental MC updates2.1.3 Difference between DP and MC for policy evaluation2.1.4 Advantages of MC over
文章目录参考资料前言1. Markov Process(MP)1.1 Markov Property1.2 Markov Process/Markov Chain1.3 Example of MP2. Markov Reward Process(MRP)2.1 Example of MRP2.2 Return and Value function2.3 Why Discount Factor2.3
在运行老师给的参考项目时报错:ImportError: No module named openai_ros在网上搜了很多资料都没有介绍说怎么安装openai_ros,fanqiang去了外网才找到答案。在这里可总结一番:首先在终端中cd到在你的工作空间:cd ~/ros_ws/src执行命令:git clone https://bitbucket.org/theconstructcore/ope
Soft Actor-Critic (SAC)是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法,和DDPG相比,Soft Actor-Critic使用的是随机策略stochastic policy,相比确定性策略具有一定的优势。Soft Actor-Critic兼具稳定性高和样本利用率高的优点。......
文章目录参考资料前言1. Reward Shaping1.1 Curiosity1. ICM(intrinsic curiosity module)2. ICM设计2. Curriculum Learning2.1 Reverse Curriculum Generation3. Hierarchical RL参考资料https://datawhalechina.github.io/easy-rl/
文章目录参考资料1. Policy Gradient1.1 Policy of Actor1.2 Actor, Environment, Reward1.2.1 Actor, Environment1.2.2 reward1.3 梯度上升(gradient ascent)1.4 梯度上升实现细节2. 策略梯度tips2.1 添加基线2.2 Assign Suitable Credit2.3 优势函
文章目录参考资料1. 基本概念MPC vs PIDMPC vs optimal controlMPC优点2. MPC整体流程预测区间与控制区间约束MPC流程参考资料bilibili的DR_CAN讲解的MPC模型预测控制器知乎上一个比较通俗易懂的解释模型预测控制轨迹跟踪模型预测控制(MPC)原理与python实现DR_CAN笔记MPCMPC控制笔记1. 基本概念模型预测控制(MPC)的核心思想就是以
蚁群算法(Ant Colony Algorithm, ACO) 于1991年首次提出,该算法模拟了自然界中蚂蚁的觅食行为。蚂蚁在寻找食物源时, 会在其经过的路径上释放一种信息素,并能够感知其它蚂蚁释放的信息素。 信息素浓度的大小==表征路径的远近==, **信息素浓度越高, 表示对应的路径距离越短**。通常, 蚂蚁会以较大的概率优先选择信息素浓度较高的路径, 并释放一定量的信息素, 以增强该条路径







