DeepMimic: Example‑Guided Deep Reinforcement Learning of Physics‑Based Character Skills

qq_42770218

663人浏览 · 2026-01-18 20:00:58

qq_42770218 · 2026-01-18 20:00:58 发布

DeepMimic: Example‑Guided Deep Reinforcement Learning of Physics‑Based Character Skills

问题和目标

动画艺术家希望用数据驱动的参照动作获得高质量的运动风格，同时又希望通过物理模拟应对外界扰动和用户指定的任务。传统基于物理的角色动画需要大量人工设计的控制器，难以泛化并且不易直观操控；纯深度强化学习（RL）虽然无需手工编码控制策略，但仅利用任务奖励往往产生不自然的动作。因此，DeepMimic旨在解决以下问题：

自然度与泛化：利用RL生成逼真但又能应对未知环境的动作，避免仅靠手工控制器的限制。
任务驱动性：既模仿给定的参考动作，又能在物理模拟环境中执行目标任务，如改变行进方向或击中目标。
多技能整合：将多个参照动作整合到一个策略中，或让策略在多种技能间自如切换。

方法概述

总体流程

输入包括一个角色模型（人形、Atlas机器人、恐龙或龙）、一组参考运动片段和一个任务奖励函数。策略 $π(at∣st,gt)\pi(a_t | s_t, g_t)$ 接收状态 $s_t$ 和任务目标 $g_t$ ，输出用于各关节PD控制器的目标角度。训练使用近端策略优化（PPO）。关键创新包括：

模仿奖励与任务奖励结合：总奖励 $rt=ωIrtI+ωGrtGr_t = \omega_I r^I_t + \omega_G r^G_t$ ，其中模仿奖励鼓励策略跟踪参照动作，任务奖励鼓励完成目标。
参考状态初始化 (RSI)：每次模拟开始时，从参照运动中随机抽取一个状态作为初始状态。这让策略在训练早期即可看到关键姿态，如空翻中的腾空状态，从而缓解探索难题。
早期终止 (ET)：当角色发生跌倒等失败事件时立即结束当前模拟，并将后续奖励置为零。这样可以消除因长时间挣扎造成的数据偏置，并引导策略学习避免失败。

多技能整合

提出三种方法在单一策略中整合多个参照片段：

多片段奖励：对每个片段计算模仿奖励并取最大值 $r_t^I = \max_{j} r_t^j$ 。策略自动选择当前最合适的片段，不需手工规划。
技能选择器：向策略输入一个 one‑hot 目标向量，明确指定要模仿哪段动作；训练中随机切换，促使策略学会在技能之间平滑过渡。
组合策略：针对不同片段训练多套策略及其价值函数，运行时按价值函数的软最大算权组合各策略。

动作重定向 (Retargeting)

通过简单地复制参照片段的局部关节旋转到新的模型，并重新训练策略，可将动作迁移到不同角色（如Atlas）、不同环境（如跳下高台或越障碍）、甚至不同物理条件（如月球重力）。

状态和动作表示

状态 $s$ ：角色每个关节相对于根（骨盆）的姿态（旋转四元数）、关节速度、线速度和角速度。采用局部坐标系，其中根位于原点，x 轴指向角色面朝方向。引入一个相位变量 $ϕ∈[0,1]\phi \in [0,1]$ 表示参考动作的进度。
行动 $a$ ：为每个关节的PD控制器提供目标角度或旋转，策略以 30Hz 频率输出动作。使用PD控制而非直接输出力矩可提升学习效率。

奖励设计

模仿奖励分为四项：

姿态匹配 $rtpr^p_t$ ：测量角色和参考在各关节四元数方向的差异，取指数衰减形式。
速度匹配 $rtvr^v_t$ ：根据各关节的局部角速度差异计算。
末端效应器匹配 $rter^e_t$ ：鼓励手和脚跟踪参考轨迹的世界坐标。
质心匹配 $rtcr^c_t$ ：鼓励整体重心位置与参考一致。

任务奖励则根据具体任务设计，例如行走朝向奖励惩罚速度偏差或敲击目标奖励。

训练算法

训练采用PPO，并使用广义优势估计（GAE）和多步TD更新值函数。每轮迭代从RSI采样初始状态，执行固定时间或直至早期终止来生成轨迹。

实验

单技能学习

论文展示了 20 多个动态技能，包括走、跑、爬、击球、空翻、踢腿、旋转踢等。大多数技能获得 0.8–0.95 的高回报，说明策略成功模仿并保持动作稳定。

多技能整合

多片段奖励：通过简单地对多个参照片段的模仿奖励取最大值，策略能在走路、转弯等片段之间自如切换，无需手写规划器。
技能选择器：训练策略根据用户输入的 one‑hot 向量执行指定技能，能在运行时即时切换不同技能。
组合策略：对每个技能单独训练策略和价值函数，运行时根据各策略的价值函数分布组合动作。

动作重定向

角色重定向：将参照片段从人形角色直接拷贝到 Atlas 机器人，重新训练策略后，机器人成功模仿走、跑、空翻和旋转踢等动作。
环境重定向：策略能适应不同物理环境（如跳跃和越障碍）并完成任务。
物理重定向：在月球重力下训练旋转踢和侧手翻，策略成功调整动作以适应低重力。

创新点与优势

数据驱动的物理动画框架：首次将深度RL与参照动作、任务目标和PD控制结合，形成一个通用框架，可处理多种角色、运动和任务。
参考状态初始化与早期终止：通过利用参考动作的各状态作为初始状态并在失败时立即终止，大幅改善探索效率和学习稳定性，是训练高度动态技能的关键。
多技能融合策略：提出多片段奖励、技能选择器和组合策略三种方案，实现策略在多技能间自动或可控的切换。
动作重定向：无需复杂处理即可将参照动作映射到不同角色、地形或物理参数，并通过重新训练适应差异。

局限与讨论

相位依赖：策略依赖线性推进的相位变量与参考同步，无法灵活调整动作节奏或暂停/加速。
多片段规模：多片段奖励在片段数量较小时效果良好，但对大型动作库的扩展性尚未验证。
PD增益和奖励权重：每个角色仍需手动设定PD控制器参数和奖励权重；错误的参数可能导致学习困难。
训练成本：每个技能的训练需几天时间，且策略目前独立训练；大规模学习仍受限制。

DeepMimic 提出了一种结合物理模拟、深度强化学习和参考运动数据的通用框架，实现了逼真而可控的角色动画。通过引入参考状态初始化和早期终止，策略能够学习复杂的跳跃、空翻和击打动作；通过多片段奖励、技能选择器和组合策略，单个策略或多策略组合即可完成丰富的技能库并支持用户控制。实验在多种角色、环境和任务上验证了方法的广泛适用性和高质量表现。尽管仍存在训练成本高、相位依赖和参数调节等问题，DeepMimic为以模仿为基础的物理动画开辟了新的方向，并为后续的动作生成、机器人控制和多技能整合研究奠定基础。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

从单一模型到混合专家（MoE）：AI Agent Harness Engineering 架构的下一代演进

Harness的本意是马具、挽具，引申为"把不同组件套在一起协同工作的框架"，AI Agent Harness Engineering指的是介于Agent业务逻辑层和底层模型层之间的中间层，负责模型的选择、调用、适配、容错、治理的全套工程能力，是Agent的"模型调度中枢"。模块核心能力模型适配层兼容不同厂商、不同部署方式的大模型、小模型、自定义模型，统一调用接口调度路由层根据任务的特性动态选择最

龙虾开发者社区

企业级Multi-Agent落地案例：从成本中心到利润AI Agent在智能AI Agent在智能营销中的实战：多智能体协同投放与效果优化

本文将基于国内头部美妆电商年5亿投放预算的真实落地案例，完整拆解企业级Multi-Agent智能营销投放系统的搭建、落地、优化全流程，从需求分析、智能体角色定义、系统架构设计、核心代码实现到效果验证，所有内容均可直接复用在你的企业投放场景中。我们会详细讲解7个不同职能的Agent如何协同完成从市场调研、人群洞察、渠道分配、创意生成、实时出价到效果归因的全链路自动化投放，彻底替代90%的人工操作。

龙虾开发者社区

AI Agent Harness故障自愈：自动恢复机制

概念定义生活化类比包裹在AI Agent外围的管控层，负责Agent的生命周期管理、流量调度、故障监控、安全防护等能力，是Agent与基础设施之间的中间层高空作业工人的安全背带，既不影响工人正常工作，又能在工人失足时第一时间拉住故障自愈无需人工干预，系统自动检测故障、定位根因、执行恢复操作，将业务恢复到正常状态的机制人体的免疫系统：出现感冒、小伤口时不用去医院，免疫系统自动修复故障检测多维度采集A

龙虾开发者社区

所有评论(0)

查看更多评论

qq_42770218

@qq_42770218

已为社区贡献1条内容

DeepMimic: Example‑Guided Deep Reinforcement Learning of Physics‑Based Character Skills

qq_42770218

DeepMimic: Example‑Guided Deep Reinforcement Learning of Physics‑Based Character Skills

问题和目标

相关工作及其不足

1. 运动学模型

2. 基于物理的控制器

3. 强化学习与模仿

4. 现有模仿强化学习方法的局限

方法概述

总体流程

多技能整合

动作重定向 (Retargeting)

状态和动作表示

奖励设计

训练算法

实验

单技能学习

多技能整合

动作重定向

创新点与优势

局限与讨论

所有评论(0)

qq_42770218

DeepMimic: Example‑Guided Deep Reinforcement Learning of Physics‑Based Character Skills

qq_42770218

DeepMimic: Example‑Guided Deep Reinforcement Learning of Physics‑Based Character Skills

问题和目标

相关工作及其不足

1. 运动学模型

2. 基于物理的控制器

3. 强化学习与模仿

4. 现有模仿强化学习方法的局限

方法概述

总体流程

多技能整合

动作重定向 (Retargeting)

状态和动作表示

奖励设计

训练算法

实验

单技能学习

多技能整合

动作重定向

创新点与优势

局限与讨论

所有评论(0)

温馨提示：您尚未绑定手机号

qq_42770218