
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出StageACT框架,通过阶段条件化模仿学习解决人形机器人开门任务中的长时程、部分可观测挑战。作者发现将任务分解为五个自然阶段(寻找把手、接近把手等)并显式标注阶段标签,能有效消除视觉歧义并实现失败恢复。该方法基于ACT架构,采用CVAE结构生成动作序列,并通过阶段条件向量为策略提供时间上下文。实验表明,该框架仅需135次人类示范即可实现完全自主的行走-开门操作,无需外部感知或门的先验信息

本文要介绍的DoorMan的目标是构建一条具有良好泛化能力的、基于视觉的人形机器人行走—操作一体化学习流程,并以开门这一具有挑战性的真实场景任务作为代表性案例

本文介绍GraspVLA系统,这是一个利用合成数据训练视觉-语言-动作(VLA)模型的新方法。研究者构建了十亿规模的SynGrasp-1B数据集,包含240类物体的抓取数据,并提出了渐进式动作生成(PAG)机制,将感知任务整合到动作生成的思维链中。该系统在互联网数据和合成数据上联合训练,实现了从仿真到现实的直接迁移,在透明物体抓取等任务上表现优异。实验表明,GraspVLA支持自然语言指令,具有开

本文解读了EO-Robotics这一开源工作,该模型通过交错视觉-文本-动作预训练实现了类似π0.5的统一架构。与早期VLA模型不同,EO-Robotics支持灵活的多模态交互,在训练时采用离散token自回归方式,推理时则输出连续动作。其核心创新包括:1)构建交错多模态数据集,结合网络视觉-语言数据和机器人操作片段;2)采用统一Transformer架构,集成离散文本解码和连续动作流匹配;3)实

本文提出Hume模型,通过双系统架构实现机器人智能控制。System2基于预训练视觉语言模型(VLM),采用价值引导的重复采样机制进行慢思考,生成候选动作;System1则通过级联动作去噪实现90Hz实时控制。该模型创新性地结合了价值评估与动作生成,在保持实时性的同时提升了复杂任务的执行能力。实验表明,该方法能有效平衡思考速度与控制精度,为通用机器人策略提供了新思路。

比如我们现在课程视频 都有对应的字幕 摘要,以及可以随时截图视频某一帧 提问VLM很快,我们还会实现类似腾讯会议的转写功能:方便大家 「基于视频的所有字幕内容」做快速回顾,和单个字级别的精准定位——点击右侧的文字 让左边的视频跳转到对应位置个人在长沙居多,但经常去上述几个地方,如之前在博客里提到过的,因为个人在长沙,所以我很早就想把在长沙做大模型和具身智能的给聚起来昨天下午,我请中南的两个具身方向

之所以写本文,源于三个方面一方面,我司「七月在线」准备在一个人形项目中,试下英伟达通用人形VLA GR00T N1,而GR00T N1中所用的VLM是他们自家于25年1月发布的Eagle 2

SoFTA论文提出慢-快双智能体框架解决人形机器人行走时末端执行器稳定控制难题。该框架将上半身(100Hz)和下半身(50Hz)控制解耦,分别针对精细操作和步态鲁棒性设计独立奖励机制。实验显示该方法能将末端执行器加速度降低50-80%,达到接近人类水平的2m/s²以下,使端水杯等精细任务成为可能。这种差异化控制策略有效解决了行走与操作在时间尺度和控制要求上的根本性矛盾。

文章摘要: DeepSeek的GRPO方法与Qwen的创新对比。Qwen团队提出GSPO算法,通过序列级概率定义重要性比率,解决了GRPO训练不稳定问题。GSPO在训练效率、性能上优于GRPO,尤其稳定了MoE模型训练,为Qwen3带来显著提升。研究表明,GSPO有望成为大模型强化学习训练的新基准。(149字)

摘要: LOVON是一种新型足式机器人系统,通过整合大语言模型(LLM)的任务规划、开放词汇视觉检测和语言到运动模型(L2MM),实现了复杂长时任务的自主执行。该系统创新性地采用拉普拉斯方差滤波技术缓解运动抖动问题,并设计了功能执行逻辑确保任务鲁棒性。实验表明,LOVON在仿真和真实机器人平台(如Unitree Go2)上能有效完成开放词汇目标搜索与导航任务,解决了传统方法在长时序、动态环境中的局








