
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
提出基于不确定性的自适应推理框架了AdaNav,通过引入不确定性自适应推理块(UAR Block)和启发式到强化学习(Heuristic-to-RL)的训练机制,使智能体能够在导航过程中根据需要动态地触发推理,解决了固定步长推理导致的性能次优和计算开销问题。

论文介绍了ROBOSPATIAL和ROBOSPATIAL-Home,一个大规模的空间理解训练和评估数据集,专为机器人应用设计。实验结果表明,ROBOSPATIAL训练的模型在空间理解方面表现优异,能够泛化到未见过的空间关系,并在真实机器人实验中展现出实际应用能力。

本文提出了基于网格视图选择和地图构建的方法,用于空中视觉语言导航。网格视图选择将连续环境中的空中VLN转化为离散环境中的视图选择任务,地图构建进一步融合了导航路径上的观测特征,提供了周围环境的信息。广泛的实验结果表明,基于网格的视图选择是一种有效的框架,能够将传统的VLN方法适应于空中VLN,BEV网格图使智能体能够利用环境上下文以获得更好的性能。

本文提出针对开放世界环境中无人机目标导航的大规模基准测试UAV-ON,通过高保真环境和复杂的语义目标指令,展示了现有导航策略在语义推理、障碍物感知和目标定位方面的挑战!
论文提出了UrbanVideo-Bench,首个针对城市开放空间中运动具身认知的基准测试。实验结果表明,当前最好的Video-LLMs在城市开放空间中的具身认知能力仍有很大提升空间。分析发现,因果推理与其他任务高度相关,微调大模型可以提高其在真实世界具身视频任务上的性能。

本文全面综述了多模态大模型在三维视觉理解领域的最新进展,涵盖三维视觉数据表示、多模态大模型的发展、三维视觉表征方法、多模态大模型驱动的三维视觉理解任务、机器人三维视觉应用以及相关数据集,旨在促进该领域的深入研究与广泛应用。

论文提出了一种高效的导航规划方法,通过考虑指令和有向保真轨迹之间的对齐关系来实现。该方法在有向图上存储视觉信息,增强了指令-轨迹对齐,并在实验中展示了其强大的性能和显著的计算效率。

论文系统地回顾了具身多模态大模型的发展,分析了基础大模型的技术进步及其在具身任务中的应用。通过分析多个数据集的影响,识别了高质量数据在模型性能提升中的重要性。尽管EMLMs在多个领域取得了显著进展,但仍需解决跨模态对齐、计算资源效率和泛化能力等挑战。未来的研究应关注跨模态预训练和自监督学习,以实现更高效、更灵活的具身智能系统。本文的研究为EMLMs的未来发展提供了有价值的参考和启示。

本文综述了基于大模型的具身智能系统,介绍了大模型在具身智能中的感知与理解作用、控制层级、系统架构以及数据来源,并探讨了当前面临的挑战和未来发展方向!

论文提出了NavRAG,一种利用检索增强LLM生成用户需求导航指令的方法。通过构建场景描述树和模拟用户角色,NavRAG有效提高了生成指令的质量和多样性。实验结果表明,NavRAG训练的模型在多个VLN基准上表现出色,验证了该方法的有效性。尽管NavRAG在生成指令的正确性评估上存在一定的局限性,但其在大规模生成导航数据方面的潜力得到了充分验证。








