logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AAAI-2024 | 大语言模型赋能导航决策!NavGPT:基于大模型显式推理的视觉语言导航

论文探讨了利用LLMs进行具身导航任务的潜力,提出了NavGPT系统。尽管NavGPT在零样本VLN任务中的性能仍不如训练有素的方法,但GPT-4的推理轨迹揭示了LLMs在具身导航规划中的潜在能力。

文章图片
#人工智能
北航团队实现「说句话就能飞」!UAV-FlowColosseo:语言交互无人机控制新突破,开放场景真机实测成功!

UAV-Flow基准为研究如何通过模仿学习使无人机能够解释语言指令并执行精细动态动作提供了一个新的视角。

文章图片
#无人机#人工智能#深度学习 +1
ECCV-2024 | DISCO:基于可微场景语义和粗细粒度控制的具身导航与交互

论文提出的DISCO方法通过动态学习丰富的对象和可供性语义场景表示,结合双层粗到细的动作控制,实现了高效的移动操作。在ALFRED基准上的实验结果表明,DISCO在未见场景中的成功率达到了58.0%,相比现有方法有显著提升,建立了新的最先进性能。

文章图片
#人工智能
ICLR-2025 | 具身导航场景自适应新范式!GSA-VLN:适应通用场景的视觉语言导航

论文提出了GSA-VLN任务,旨在解决智能体在持续环境中的适应问题。通过引入GSA-R2R数据集和GR-DUET方法,显著提高了智能体在多样环境和指令下的适应能力。未来的工作将探索更多的无监督学习方法,以进一步增强智能体在GSA-R2R中的性能。

文章图片
#人工智能#机器人#深度学习
ICRA-2025 | 视觉预测助力机器人自主导航!NavigateDiff:视觉引导的零样本导航助理

论文提出了NavigateDiff,一种新的导航框架,通过视觉预测器和混合融合策略,实现了在新环境中的零样本导航。NavigateDiff方法在模拟和真实世界环境中均表现出强大的鲁棒性和适应性,显著提高了导航性能和效率。

文章图片
#机器人#人工智能
ICCV-2025 | 中科院自动化所世界模型助力具身导航!NavMorph:连续环境中的视觉语言导航自演化世界模型

论文提出了自演化世界模型框架NavMorph,针对连续环境中视觉语言导航(VLN-CE)任务,通过模拟环境动态并实时适应环境变化,显著提升了导航性能,在多个基准测试中表现出色!

文章图片
#人工智能
ICRA-2024 | ICRA-2024 最佳论文!VLFM:基于视觉-语言边界地图的零样本语义导航

论文提出了VLFM,一种用于新环境中目标驱动语义导航的零样本框架。使用预训练模型进行空间感知的联合视觉语言语义推理,并在新前沿航点选择中进行目标驱动导航。VLFM在模拟的3D家庭环境中实现了最先进的零样本导航性能,并在Spot机器人平台上证明了其在真实世界场景中的可行性。

文章图片
#人工智能
印度语言指令驱动的无人机导航!UAV-VLN:端到端视觉语言导航助力无人机自主飞行

UAV-VLN通过结合微调的大型语言模型的语义推理能力和开放词汇视觉定位,显著提高了指令遵循准确性和路径效率,能够在复杂动态环境中实现稳健的导航。

文章图片
#无人机#人工智能#深度学习
中山大学无人机具身导航新突破!FlightGPT:迈向通用性和可解释性的无人机视觉语言导航

FlightGPT通过结合VLMs的多模态理解能力和两阶段训练流程(SFT+RL),在城市级无人机VLN任务中实现了显著的性能提升,特别是在泛化能力和决策可解释性方面表现出色。

文章图片
#无人机#人工智能#深度学习 +1
技术实践︱利用Docker快速体验Matterport3DSimulator!让视觉语言导航(VLN)任务入门再无门槛!

然而,由于其安装过程的复杂性以及所需数据集的庞大,这为初学者设置了较高的使用门槛。本教程仅用于快速体验Matterport3DSimulator,镜像中包含的数据集有限,也没有使用GPU进行加速,如需要在研究或者工程中使用Matterport3DSimulator,请期待我们后续文章。由于官方提供的镜像,还需要执行很多操作,例如数据处理、程序编译等,且可视化比较麻烦,为了简化这些步骤,我们提供了一

文章图片
#人工智能#docker
    共 269 条
  • 1
  • 2
  • 3
  • 27
  • 请选择