logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

模仿学习1:概念入门

摘要:机械臂模仿学习通过观察专家行为学习策略,无需显式奖励函数。核心流程包括数据采集(动觉示教、遥操作等)、模型训练和策略部署。主要方法有行为克隆(简单但易误差累积)、DAgger(需专家干预)、GAIL(对抗式学习)和逆向强化学习(推断任务意图)。新兴技术如扩散策略和ACT通过多模态建模和动作分块提升性能。该技术适用于从简单抓取到复杂灵巧操作等场景,学习路线建议从基础方法逐步过渡到先进算法。

#学习#机器人
强化学习4.2:基于价值——DQN算法

深度Q网络(DQN)是一种结合深度学习和强化学习的算法,通过神经网络替代传统Q-learning中的Q表来解决状态空间过大的问题。其核心创新包括经验回放和目标网络机制:经验回放通过存储历史数据并随机采样来打破数据相关性,目标网络则通过固定参数来稳定训练过程。算法流程包括初始化网络参数、经验存储、随机采样和周期性更新目标网络等步骤。代码实现展示了如何构建Q网络、经验回放缓冲区,以及训练过程中的动作选

#算法
强化学习前置:神经网络

神经网络是模仿生物神经元层级结构的非线性计算模型,是深度学习的核心基础核心能力是通过,自动学习数据的层级化特征 —— 从低级的边缘、纹理,到高级的语义、物体结构,无需人工设计特征。

#神经网络#人工智能#深度学习
强化学习5:基于策略——策略梯度

摘要:策略梯度是强化学习中直接优化策略的方法,通过神经网络表示策略并使用梯度上升最大化期望回报。核心算法包括蒙特卡洛策略梯度(用完整轨迹回报更新)、Actor-Critic(结合策略和价值网络降低方差)、TRPO(通过KL散度约束保证稳定更新)、PPO(采用裁剪机制限制更新幅度)以及SAC(基于最大熵框架平衡探索与利用)。这些方法通过不同机制解决了策略优化中的方差问题和稳定性挑战,在连续动作空间任

#人工智能
aubo强化学习2:创建强化学习环境mujoco

摘要:本文介绍了MuJoCo物理引擎的安装与验证流程。

#学习#机器人
强化学习3.2:表格求解法——蒙特卡罗方法

摘要:蒙特卡洛强化学习方法通过完整回合采样估计状态/动作价值函数,具有无模型学习、完整轨迹依赖、采样平均估计和通用性强等特点。其核心包括策略评估(首次/每次访问法)和策略控制(MCES和ε-贪心策略)。该方法无需环境动力学模型,直接从经验中学习,适用于任意马尔可夫决策过程,通过广义策略迭代框架实现策略优化,收敛性得到保证。关键优势在于对复杂环境的适应性和理论上的无偏估计特性。

#机器学习#人工智能
模仿学习2.7:diffusion

收集专家示范轨迹,整理为「环境状态序列(含当前 / 历史状态)+ 对应未来多步动作序列」的配对数据,动作序列是扩散模型的生成目标。核心目标:从专家示范的(状态 - 动作)轨迹中,学习一个从环境状态到执行动作的映射策略,让智能体复现专家的行为。基于当前实时的环境状态,通过训练好的去噪网络,执行 T 步逐步去噪,最终还原出符合专家行为的完整动作序列;一般取序列的第一个动作在环境中执行,之后进入新的环境

#学习
模仿学习2.6:ACT

ACT(Action Chunking with Transformers)是一种结合了。思想的模仿学习算法。它不再预测当前瞬间的一个动作,而是让模型。每一步都会新生成一段 K 步动作,不同预测块之间。人类遥控机器人完成任务(比如插线、抓取)图像 + 机器人状态 → 提取特征。观测特征 + z → 直接输出。平滑执行,解决传统行为克隆的。

#学习#人工智能#算法
到底了