
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
论文提出视觉语言导航模型CorrectNav,通过“自我修正飞轮”后训练范式,显著提升了模型在模拟和真实环境中的导航性能,尤其在错误纠正、动态避障和长指令执行方面表现出色,为视觉语言导航领域带来了新的突破!

论文探讨了具身AI从LLMs到WMs的发展,分析了二者在具身AI中的作用,提出了联合MLLMs与WMs的架构,强调其对复杂任务的重要性,总结了具身AI的应用,并展望了未来研究方向,推动具身AI向通用物理智能发展!

DyNaVLM 通过动态编码拓扑空间关系,使智能体能够在没有固定动作空间或特定任务训练的情况下灵活导航!

FINDINGDORY用于评估具身智能体在长期任务中的记忆能力,通过构造需要回忆过去交互经验的多样化任务,揭示了现有视觉语言模型(VLM)在处理长时序记忆和复杂推理时的局限性!

EGNav通过模仿人类的空间关系推理策略,利用预训练的房间专家模型,有效解决了智能体在图像目标导航任务中的无效动作问题!

论文提出了InfiniteWorld,一个基于NVIDIA Isaac Sim的统一且可扩展的模拟器,用于通用视觉-语言机器人交互。InfiniteWorld提供了丰富的3D资产构建接口,支持场景和对象资产的无限扩展,并建立了全面的机器人交互基准,以综合评估具身智能体在感知、规划、执行和交互方面的能力。

论文通过EARBench框架和EARDataset,首次系统地评估了EAI智能体在物理环境中的任务规划能力和风险意识。结果表明,当前基础模型在复杂场景下的风险识别能力不足,且简单的模型规模扩大并不能显著改善风险意识。提出的两种风险缓解策略在一定程度上提高了模型的安全性,但仍需进一步研究和开发更有效的安全增强方法。研究强调了在EAI发展中优先考虑安全性的重要性,并为未来的研究方向提供了有价值的见解。

论文提出的ARIO标准和新数据集显著改善了具身AI数据集的不足,提供了更丰富、更多样化和更大规模的数据。通过提供统一的数据格式和标准化的数据处理流程,ARIO为开发更强大、更通用的具身AI智能体铺平了道路。

论文提出了基于LLM的视觉和语言协作机器人导航框架,用于智能制造中的工具取回。通过重建和注释真实的三维协作机器人场景,利用LLM理解人类自然语言指令,并生成Python代码进行路径规划,最终在仿真环境中验证了该框架的有效性。该方法不仅提高了操作员的作业效率和安全性,还推动了智能制造中人机协作的发展。未来的工作将探索自动场景分割算法,以提高系统的定量评估指标。

EvolveNav通过引入形式化CoT监督微调和自反思后训练,有效提升了LLM在VLN任务中的推理能力和决策准确性!








