
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
论文探讨了利用LLMs进行具身导航任务的潜力,提出了NavGPT系统。尽管NavGPT在零样本VLN任务中的性能仍不如训练有素的方法,但GPT-4的推理轨迹揭示了LLMs在具身导航规划中的潜在能力。

UAV-Flow基准为研究如何通过模仿学习使无人机能够解释语言指令并执行精细动态动作提供了一个新的视角。

论文提出的DISCO方法通过动态学习丰富的对象和可供性语义场景表示,结合双层粗到细的动作控制,实现了高效的移动操作。在ALFRED基准上的实验结果表明,DISCO在未见场景中的成功率达到了58.0%,相比现有方法有显著提升,建立了新的最先进性能。

论文提出了GSA-VLN任务,旨在解决智能体在持续环境中的适应问题。通过引入GSA-R2R数据集和GR-DUET方法,显著提高了智能体在多样环境和指令下的适应能力。未来的工作将探索更多的无监督学习方法,以进一步增强智能体在GSA-R2R中的性能。

论文提出了NavigateDiff,一种新的导航框架,通过视觉预测器和混合融合策略,实现了在新环境中的零样本导航。NavigateDiff方法在模拟和真实世界环境中均表现出强大的鲁棒性和适应性,显著提高了导航性能和效率。

论文提出了自演化世界模型框架NavMorph,针对连续环境中视觉语言导航(VLN-CE)任务,通过模拟环境动态并实时适应环境变化,显著提升了导航性能,在多个基准测试中表现出色!

论文提出了VLFM,一种用于新环境中目标驱动语义导航的零样本框架。使用预训练模型进行空间感知的联合视觉语言语义推理,并在新前沿航点选择中进行目标驱动导航。VLFM在模拟的3D家庭环境中实现了最先进的零样本导航性能,并在Spot机器人平台上证明了其在真实世界场景中的可行性。

UAV-VLN通过结合微调的大型语言模型的语义推理能力和开放词汇视觉定位,显著提高了指令遵循准确性和路径效率,能够在复杂动态环境中实现稳健的导航。

FlightGPT通过结合VLMs的多模态理解能力和两阶段训练流程(SFT+RL),在城市级无人机VLN任务中实现了显著的性能提升,特别是在泛化能力和决策可解释性方面表现出色。

然而,由于其安装过程的复杂性以及所需数据集的庞大,这为初学者设置了较高的使用门槛。本教程仅用于快速体验Matterport3DSimulator,镜像中包含的数据集有限,也没有使用GPU进行加速,如需要在研究或者工程中使用Matterport3DSimulator,请期待我们后续文章。由于官方提供的镜像,还需要执行很多操作,例如数据处理、程序编译等,且可视化比较麻烦,为了简化这些步骤,我们提供了一








