
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
STM32是ST公司基于ARMCortex-M内核开发的32位微控制器,功能强大、性能优异、片上资源丰富、功耗低,是一款经典的嵌入式微控制器。系列:主流系列STM32F1内核:ARM Cortex-M3主频:72MHz供电:2.0~3.6V(标准3.3V)封装:LQFP48主闪存存储器为最常用的启动模式。不同型号的启动文件后缀选择方法:建立工程文件夹,Keil中新建工程,选择型号工程文件夹里建立S

环境的(Model)是一个智能体可以用来预测环境对其动作的反应的任何事物。给定一个状态和一个动作,模型能产生后继状态和下一个收益的预测作为环境的反应结果。根据是否有模型参与,强化学习算法可分为(Model-Based RL,MBRL)和在【深度强化学习】和【分层强化学习】中,我们探讨的都是MFRL,它们将环境视为一个黑箱,智能体直接从与环境交互获得的经验数据中学习价值函数或策略,而不会尝试理解环境

环境的(Model)是一个智能体可以用来预测环境对其动作的反应的任何事物。给定一个状态和一个动作,模型能产生后继状态和下一个收益的预测作为环境的反应结果。根据是否有模型参与,强化学习算法可分为(Model-Based RL,MBRL)和在【深度强化学习】和【分层强化学习】中,我们探讨的都是MFRL,它们将环境视为一个黑箱,智能体直接从与环境交互获得的经验数据中学习价值函数或策略,而不会尝试理解环境

本文介绍了Actor-Critic算法及其变体的基本原理。Actor-Critic结合策略梯度和价值函数近似,Actor负责决策动作,Critic评价动作质量。QAC算法用Q函数替代REINFORCE中的G_t,采用SARSA更新Q网络。AAC算法引入优势函数A=Q-V,通过V函数和TD误差估计优势。为解决数据相关问题,A3C采用多智能体并行异步更新,而A2C改进为同步更新,使训练更稳定。这些方法

摘要 本文介绍了机器人学中的齐次变换矩阵及其应用。主要内容包括: 位姿描述:通过位置矢量和旋转矩阵表示物体在空间中的位置和姿态。旋转矩阵的行列具有特殊几何意义,且不同坐标系间的旋转矩阵互为转置。 变换映射:推导了坐标系间位置和姿态都不同时的变换公式,引入齐次变换矩阵简化计算。齐次变换矩阵包含旋转矩阵和位置矢量,可统一表示一般变换。 变换算子:介绍了平移和旋转两种基本变换算子。平移算子用齐次矩阵表示

主要参考学习资料:《动手学深度学习》阿斯顿·张 等 著【动手学深度学习 PyTorch版】哔哩哔哩@跟李牧学AI由于本系列一开始跳过了第一章引言部分,因此系列编号比书本章节编号提前。现改为和书本统一(因为之前自己的原始笔记也是按照书本章节编的,每次发布都要修改有些麻烦)。

主要参考学习资料:《动手学深度学习》阿斯顿·张 等 著【动手学深度学习 PyTorch版】哔哩哔哩@跟李牧学AI。

位置描述;姿态描述-旋转矩阵;位姿描述

SAC(Soft Actor-Critic)是一种基于最大熵强化学习的Actor-Critic方法,通过引入策略熵来增强探索能力。相比确定性策略方法,SAC采用随机性策略和重参数化技巧,既降低了方差又提高了采样效率。其核心创新在于:1)在目标函数中引入策略熵项,鼓励多样化的探索;2)使用重参数化技巧将随机性与策略参数解耦,实现更稳定的梯度传播。SAC在连续控制任务中展现出优异的样本效率和鲁棒性,成

在传统强化学习框架中,对于一个任务,智能体将从一个初始状态开始,在每一个时间步进行决策,直至到达终止状态后,所获得的经验将被用于更新每一个状态下的策略。正是这些问题催生了(Hierarchial Reinforce Learning,HRL)这一分支。引论将顺便介绍两个概念:选项框架和半马尔可夫决策过程,它们为HRL奠定了思想基石。








