SteveSenna 个人主页

@SteveSenna

SteveSenna

2026-01-13 19:24:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

模仿学习1：概念入门

摘要：机械臂模仿学习通过观察专家行为学习策略，无需显式奖励函数。核心流程包括数据采集（动觉示教、遥操作等）、模型训练和策略部署。主要方法有行为克隆（简单但易误差累积）、DAgger（需专家干预）、GAIL（对抗式学习）和逆向强化学习（推断任务意图）。新兴技术如扩散策略和ACT通过多模态建模和动作分块提升性能。该技术适用于从简单抓取到复杂灵巧操作等场景，学习路线建议从基础方法逐步过渡到先进算法。

#学习 #机器人

强化学习4.2：基于价值——DQN算法

深度Q网络（DQN）是一种结合深度学习和强化学习的算法，通过神经网络替代传统Q-learning中的Q表来解决状态空间过大的问题。其核心创新包括经验回放和目标网络机制：经验回放通过存储历史数据并随机采样来打破数据相关性，目标网络则通过固定参数来稳定训练过程。算法流程包括初始化网络参数、经验存储、随机采样和周期性更新目标网络等步骤。代码实现展示了如何构建Q网络、经验回放缓冲区，以及训练过程中的动作选

#算法

强化学习前置：神经网络

神经网络是模仿生物神经元层级结构的非线性计算模型，是深度学习的核心基础核心能力是通过，自动学习数据的层级化特征 —— 从低级的边缘、纹理，到高级的语义、物体结构，无需人工设计特征。

#神经网络 #人工智能 #深度学习

强化学习5：基于策略——策略梯度

摘要：策略梯度是强化学习中直接优化策略的方法，通过神经网络表示策略并使用梯度上升最大化期望回报。核心算法包括蒙特卡洛策略梯度（用完整轨迹回报更新）、Actor-Critic（结合策略和价值网络降低方差）、TRPO（通过KL散度约束保证稳定更新）、PPO（采用裁剪机制限制更新幅度）以及SAC（基于最大熵框架平衡探索与利用）。这些方法通过不同机制解决了策略优化中的方差问题和稳定性挑战，在连续动作空间任

#人工智能

aubo强化学习2：创建强化学习环境mujoco

摘要：本文介绍了MuJoCo物理引擎的安装与验证流程。

#学习 #机器人

强化学习3.2：表格求解法——蒙特卡罗方法

摘要：蒙特卡洛强化学习方法通过完整回合采样估计状态/动作价值函数，具有无模型学习、完整轨迹依赖、采样平均估计和通用性强等特点。其核心包括策略评估（首次/每次访问法）和策略控制（MCES和ε-贪心策略）。该方法无需环境动力学模型，直接从经验中学习，适用于任意马尔可夫决策过程，通过广义策略迭代框架实现策略优化，收敛性得到保证。关键优势在于对复杂环境的适应性和理论上的无偏估计特性。

#机器学习 #人工智能

模仿学习2.7：diffusion

收集专家示范轨迹，整理为「环境状态序列（含当前 / 历史状态）+ 对应未来多步动作序列」的配对数据，动作序列是扩散模型的生成目标。核心目标：从专家示范的（状态 - 动作）轨迹中，学习一个从环境状态到执行动作的映射策略，让智能体复现专家的行为。基于当前实时的环境状态，通过训练好的去噪网络，执行 T 步逐步去噪，最终还原出符合专家行为的完整动作序列；一般取序列的第一个动作在环境中执行，之后进入新的环境

#学习

模仿学习2.6：ACT

ACT（Action Chunking with Transformers）是一种结合了。思想的模仿学习算法。它不再预测当前瞬间的一个动作，而是让模型。每一步都会新生成一段 K 步动作，不同预测块之间。人类遥控机器人完成任务（比如插线、抓取）图像 + 机器人状态 → 提取特征。观测特征 + z → 直接输出。平滑执行，解决传统行为克隆的。

#学习 #人工智能 #算法

到底了