
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
机器人导航是指机器人能够在环境中自主移动和定位的能力。本文系统地回顾了基于大语言模型(LLMs)的机器人导航研究,将其分为感知、规划、控制、交互和协调等方面。具体来说,机器人导航通常被视为一个几何映射和规划问题,需要机器人对环境进行参数化处理。

然后,他们使用Python的exec函数,将代码作为输入字符串,并使用两个字典形成该代码执行的范围:(i)全局变量,包含生成的代码可能调用的所有API,和(ii)局部变量,一个将在exec期间定义的变量和新函数填充的空字典。例如,他们展示了如何使用LLM编写代码来定义一个名为“get_objs_bigger_than_area_th”的函数,该函数接受两个参数——一个名为“obj_names”的物

近期英国爱丁堡大学发表Nature Machine Intelligence研究工作,提出了一种名为ELLMER(具身大型语言模型支持机器人)的创新框架,通过整合大型语言模型(如GPT-4)、检索增强生成(RAG)、视觉和力反馈,使机器人能够在动态环境中完成复杂的长期任务。动态代码生成:LLM结合检索到的示例生成可执行的Python代码,适配当前环境(如杯子的位置)。知识库检索:通过RAG从预定义

NVIDIA与台湾大学合作提出ThinkAct双系统VLA模型,通过强化视觉潜在规划连接推理与执行。该模型采用MLLM架构,结合动作对齐奖励的强化学习增强长程规划能力,将中间推理压缩为潜在轨迹指导动作执行。实验表明,ThinkAct在SimplerEnv和LIBERO等基准上的成功率显著超越基线模型,在具身推理任务中展现出优异的少样本适应、自主纠错等能力。研究通过可视化规划轨迹和故障修正案例,验证

摘要:本文探讨了大语言模型(LLM)与世界模型(WM)在具身智能中的关系。作者通过课程实践和学术会议认识到具身智能的重要性,发现LLM虽在语言处理上表现优异,但缺乏物理世界感知能力。世界模型作为具身智能的核心,能模拟环境变化并支持决策。研究指出LLM向WM演化的可能路径,包括多模态数据融合(如PaLM-E模型)和虚拟环境训练,但也面临物理推理不足、因果理解有限等挑战。这一演化过程将推动AI从语言处

清华大学LNSGroup开源了人体肌肉骨骼仿真模型MS-Human-700,包含700个肌肉-肌腱单元和206个关节,可在MuJoCo物理引擎中模拟人体运动。该模型解决了高维肌肉控制难题,并配套开发了DynSyn协同控制、MPC2分层规划、QFlex高效探索等算法,支持复杂动作学习。项目构建了完整的仿真工具链,为运动控制、康复医学和人机交互研究提供数字化实验平台,降低了真实人体实验的成本与风险。相

帕西尼感知与上海交通大学联合提出OmniVTLA模型,通过视觉-触觉-语言多模态融合显著提升机器人操作性能。该模型采用双路径编码器解决触觉数据异构性问题,并构建包含135K样本的ObjTac数据集实现语义对齐。实验显示,OmniVTLA在抓取任务中成功率最高达100%,较基准模型提升21.9%,同时缩短任务时间24.2%并生成更平滑轨迹。研究为密集接触型操作任务提供了创新解决方案,相关成果已发表于

发展范式演变:从强化学习到模仿学习,再到VLA,根本驱动力都是“数据”规模化。旧瓶颈被打破,新瓶颈出现,推动时代更迭。重要发展方向:Ted看好两条路径——①视频动作模型,使用生成式模型来理解物理世界;②第一人称人类数据,大规模采集并利用人类操作的一手数据。原理类比与整合操控(Manipulation)像大脑皮层,需要示例和监督;运动控制(Locomotion)像小脑/脊髓,是反射性的。如何将大脑(

发展范式演变:从强化学习到模仿学习,再到VLA,根本驱动力都是“数据”规模化。旧瓶颈被打破,新瓶颈出现,推动时代更迭。重要发展方向:Ted看好两条路径——①视频动作模型,使用生成式模型来理解物理世界;②第一人称人类数据,大规模采集并利用人类操作的一手数据。原理类比与整合操控(Manipulation)像大脑皮层,需要示例和监督;运动控制(Locomotion)像小脑/脊髓,是反射性的。如何将大脑(

针对该问题,来自中山大学和华为诺亚等单位的研究团队提出了一种全新的原语驱动的路径点感知世界模型,借助 VLMs 作为机器人的大脑,理解任务之间的动作关联性,并通过 “世界模型” 获取对未来动作的表征,从而更好地帮助机器人学习和决策。这样做有几个好处:它使得模型可以更好的学习任务与动作之间的内在关联性,减少其他干扰因素的影响,并更好地捕捉不同任务之间的相似性(例如,拧瓶盖和拧螺丝的动作是相似的,拿杯








