
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
只用了很少的真机训练数据(7.5k条),通过“P图”扩充数据和“预测动作片段”而非单步动作,训练出了一个能听懂人话、在没见过的厨房场景里也能完成多种复杂任务的通用机器人。
本文提出了一种名为 RoboFactory 的框架和基准测试,利用大模型生成“逻辑、空间、时间”三重限制条件,来自动化地生成高质量的多机器人协作训练数据,并探索了如何训练多机器人模仿学习模型。

用一个强VLM backbone(Qwen3-VL) + 轻量MLP action head + 最小化数据处理,构建了一个简洁但强性能的VLA基线,系统验证了"很多复杂设计其实没必要"。

本文提出了一种叫“扩散强制(Diffusion Forcing)”的新方法,让模型既能像GPT一样自由地生成长短不一的序列(如视频、动作),又能像全序列扩散模型一样进行全局规划和纠错,解决了长序列生成容易“崩”掉的问题。

本文提出了一个名为“Great March 100 (GM-100)”的机器人学习评测基准,包含100个精心设计的、涵盖长尾行为的任务,旨在解决现有评测任务过于单一、无法全面评估机器人智能水平的问题。
本文发布了一个名为 EmbodiedScan 的超大规模室内3D场景数据集,并基于此提出了一个名为 Embodied Perceptron 的基准模型,旨在解决具身智能体在第一人称视角下对3D环境进行全方位感知和理解的问题。

本文发布了一个名为 EmbodiedScan 的超大规模室内3D场景数据集,并基于此提出了一个名为 Embodied Perceptron 的基准模型,旨在解决具身智能体在第一人称视角下对3D环境进行全方位感知和理解的问题。

通过把评测标准从“光看视频像不像”升级到“多模态感知+真动手干活+现实世界测试”,逼出真正能用的具身世界模型。
本文提出了一种名为D4RT的高效前馈模型,通过统一的Transformer架构,仅需一次处理就能从视频中重建出包含几何和运动信息的动态4D场景。
通过让机器人大军在实际干活时边干边学(Online RL),用分布式的强化学习算法,把预训练好的通用机器人模型(VLA)从“理论派”变成“实战派”,解决了离线数据无法覆盖真实世界复杂情况的痛点。








