
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
术语定义核心作用世界模型(World Model)学习环境动态的内部模型,形式化为部分可观测马尔可夫决策过程(POMDP),目标是估计状态转移函数 pθ(ot+1∣o≤t,a≤t)预测未来观测,支撑智能体决策视频扩散模型(Video Diffusion Model)基于扩散过程的生成模型,通过逐步去噪生成高保真视频,训练数据为互联网无动作标签视频提供丰富的物理先验(如物体运动规律、场景一致
PPO在线互动式优化,模型和环境(或 RM)实时交互产生奖励,通过优势估计和裁剪机制,逐步调整策略,适合 “没有现成标注、需要模型主动探索” 的场景(如机器人自主学习、从零训练的对话模型)。DPO离线偏好式优化,直接用现成的 “好坏回答对” 训练,通过对比概率比值让模型对齐偏好,还天然绑定参考模型防止退化,适合 “有大量人工 / AI 标注偏好数据、追求简单稳定” 的场景(如大模型对齐的量产阶段)
DINO ViT patch tokens + 可学习的 camera token(每帧1个)+ 4 个 register token。(Alternating-Attention):先帧内自注意力,再跨帧全局自注意力,循环 24 次。Tracking Head(CoTracker2):用跟踪特征完成任意点到全部帧的匹配。Dense Head(DPT):输出深度图、点云图、不确定性图、跟踪特征图。
AndroidWorld上的实验结果表明,EcoAgent有效地处理了复杂的移动任务,同时减少了MLLM的令牌消耗,从而降低了运营成本,并促进了边缘设备上的实际部署。可以看到,在plan agent提出了一个计划+每步计划的预期结果之后,假如操作结果一直符合预期的话,整个流程接下来都不需要云端模型了。只有出现了不符合预期的情况的时候,才会需要云端模型,把当前情况和他说一下,再让他修改一下计划。ap
VLA训练的时候要多几个epoch,不能像LLM一样1,2个就完事了。VLA意为:vision language action 模型,其中的v可以使用常规多模态模型的vision部分。使用的现成的数据集,但是做了修改。只要人为手动的数据集,使用的机器什么的都要统一,各种任务类型也要平均。Motion(移动):同样的东西和背景看起来差不多,不过东西的位置不太一样。优点基本上就是:模型小,开源,直接用
先通过 MUNIT 模型(无监督图像翻译)把人类演示视频逐帧转化为机器人视角的视频 —— 翻译后的视频可能有视觉伪影,缺少结构化关键信息,无法直接用于训练;接着用 Transporter 模型从翻译后的机器人视频中提取关键点轨迹(比如机器人末端、物体中心的运动轨迹);最后用这些轨迹作为强化学习的训练目标,让机械臂的关键点轨迹与目标轨迹尽可能一致,从而学会操作技能。经过上述训练,我们就得到了能准确提
EgoMAN 项目的核心突破是“用结构化令牌打通推理与运动”:通过数据集提供 “语义 - 空间 - 运动” 的强关联监督,再通过 4 个轨迹令牌将抽象的视觉 - 语言推理转化为运动生成可直接利用的中间表示,最终实现 “意图明确、轨迹平滑、泛化性强” 的 3D 手部轨迹预测。该方法既解决了传统模型 “语义与运动脱节” 的问题,又克服了 VLA 系统 “运动生成低效” 的缺陷,为 embodied A
EgoMAN 项目的核心突破是“用结构化令牌打通推理与运动”:通过数据集提供 “语义 - 空间 - 运动” 的强关联监督,再通过 4 个轨迹令牌将抽象的视觉 - 语言推理转化为运动生成可直接利用的中间表示,最终实现 “意图明确、轨迹平滑、泛化性强” 的 3D 手部轨迹预测。该方法既解决了传统模型 “语义与运动脱节” 的问题,又克服了 VLA 系统 “运动生成低效” 的缺陷,为 embodied A
这篇论文提出了,是一款面向移动操作机器人的端到端控制框架,核心是解决移动底座与机械臂的协同控制难题,以及不同操作阶段的多模态感知适配问题。下面从。
PPO在线互动式优化,模型和环境(或 RM)实时交互产生奖励,通过优势估计和裁剪机制,逐步调整策略,适合 “没有现成标注、需要模型主动探索” 的场景(如机器人自主学习、从零训练的对话模型)。DPO离线偏好式优化,直接用现成的 “好坏回答对” 训练,通过对比概率比值让模型对齐偏好,还天然绑定参考模型防止退化,适合 “有大量人工 / AI 标注偏好数据、追求简单稳定” 的场景(如大模型对齐的量产阶段)







