
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了InternVLA-N1双系统视觉语言导航模型,该系统通过System2(基于多模态大语言模型的像素目标规划器)进行中长期规划,System1(基于扩散的轻量级视觉导航策略)执行实时路径规划。为解决双系统同步延迟和二维像素坐标歧义问题,模型引入了异步推理机制和潜在token表征,并通过世界模型增强潜在规划能力。研究团队还开发了高效仿真数据生成流程,构建了包含5300万图像和80万指令的大

本来针对Open-TeleVision的源码解析,是打算放在此文《从宇树摇操avp_teleoperate到unitree_IL_lerobot:如何基于宇树人形进行二次开发》中的,但考虑到为避免篇幅过长,故独立成此文。

本文解读了EO-Robotics这一开源工作,该模型通过交错视觉-文本-动作预训练实现了类似π0.5的统一架构。与早期VLA模型不同,EO-Robotics支持灵活的多模态交互,在训练时采用离散token自回归方式,推理时则输出连续动作。其核心创新包括:1)构建交错多模态数据集,结合网络视觉-语言数据和机器人操作片段;2)采用统一Transformer架构,集成离散文本解码和连续动作流匹配;3)实

本文提出Hume模型,通过双系统架构实现机器人智能控制。System2基于预训练视觉语言模型(VLM),采用价值引导的重复采样机制进行慢思考,生成候选动作;System1则通过级联动作去噪实现90Hz实时控制。该模型创新性地结合了价值评估与动作生成,在保持实时性的同时提升了复杂任务的执行能力。实验表明,该方法能有效平衡思考速度与控制精度,为通用机器人策略提供了新思路。

比如我们现在课程视频 都有对应的字幕 摘要,以及可以随时截图视频某一帧 提问VLM很快,我们还会实现类似腾讯会议的转写功能:方便大家 「基于视频的所有字幕内容」做快速回顾,和单个字级别的精准定位——点击右侧的文字 让左边的视频跳转到对应位置个人在长沙居多,但经常去上述几个地方,如之前在博客里提到过的,因为个人在长沙,所以我很早就想把在长沙做大模型和具身智能的给聚起来昨天下午,我请中南的两个具身方向

之所以写本文,源于三个方面一方面,我司「七月在线」准备在一个人形项目中,试下英伟达通用人形VLA GR00T N1,而GR00T N1中所用的VLM是他们自家于25年1月发布的Eagle 2

SoFTA论文提出慢-快双智能体框架解决人形机器人行走时末端执行器稳定控制难题。该框架将上半身(100Hz)和下半身(50Hz)控制解耦,分别针对精细操作和步态鲁棒性设计独立奖励机制。实验显示该方法能将末端执行器加速度降低50-80%,达到接近人类水平的2m/s²以下,使端水杯等精细任务成为可能。这种差异化控制策略有效解决了行走与操作在时间尺度和控制要求上的根本性矛盾。

文章摘要: DeepSeek的GRPO方法与Qwen的创新对比。Qwen团队提出GSPO算法,通过序列级概率定义重要性比率,解决了GRPO训练不稳定问题。GSPO在训练效率、性能上优于GRPO,尤其稳定了MoE模型训练,为Qwen3带来显著提升。研究表明,GSPO有望成为大模型强化学习训练的新基准。(149字)

摘要: LOVON是一种新型足式机器人系统,通过整合大语言模型(LLM)的任务规划、开放词汇视觉检测和语言到运动模型(L2MM),实现了复杂长时任务的自主执行。该系统创新性地采用拉普拉斯方差滤波技术缓解运动抖动问题,并设计了功能执行逻辑确保任务鲁棒性。实验表明,LOVON在仿真和真实机器人平台(如Unitree Go2)上能有效完成开放词汇目标搜索与导航任务,解决了传统方法在长时序、动态环境中的局

摘要:TrajBooster提出了一种跨形态框架,通过将末端执行器轨迹从轮式机器人迁移到双足人形机器人,解决双足VLA微调数据稀缺问题。该框架包含真实轨迹提取、仿真重定向和真实微调三个步骤,利用AgibotG1的大规模数据提升UnitreeG1的VLA训练效果。实验表明,仅需10分钟真实遥操作数据即可实现广泛全身操作任务,展现了在多样化工作空间中的操作能力。








