logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

具身导航赋能智能物流!OpenBench:智能物流最后一公里语义导航新基准

论文提出的OPEN系统结合了OSM和先进的基础模型,解决了可扩展和高效户外导航的挑战。通过使用OSM进行轻量级地图表示,并结合LLMs和VLMs进行全球定位、地图更新和门牌号码识别,系统克服了传统方法和基于学习方法的局限性。引入的新基准测试为评估自主配送系统提供了一个有效的框架。

文章图片
#人工智能#机器人#交通物流
长期记忆在导航与操作任务中的评估!FindingDory:具身智能体记忆能力评估基准测试

FINDINGDORY用于评估具身智能体在长期任务中的记忆能力,通过构造需要回忆过去交互经验的多样化任务,揭示了现有视觉语言模型(VLM)在处理长时序记忆和复杂推理时的局限性!

文章图片
#人工智能#机器人#深度学习
解锁具身智能时空密码!LLaVA-ST:多模态大模型的细粒度时空理解

论文提出的LLaVA-ST是首个能够端到端处理细粒度时空多模态理解任务的MLLM。通过引入LAPE和STP模块,LLaVA-ST显著提高了模型在多个基准测试中的性能。实验结果表明,LLaVA-ST在处理时空交错任务时具有显著优势,并且在开放式视频问答和多选题视频问答任务中也表现出色。LLaVA-ST的提出为未来的MLLMs在细粒度多模态理解任务上的改进提供了重要的参考。

文章图片
#人工智能#深度学习
清华大学具身智能最新万字综述!形态、行动、感知与学习的协同效应

论文总结了具身智能的发展,特别是具身人工智能(EAI)的研究。提出了统一的具身智能框架,强调了形态学、动作、感知和学习之间的协同作用。未来的研究可以从这些组件的内在联系中受益。

文章图片
#人工智能
迈向通用具身智能:具身智能的综述与发展路线

论文提出具身AGI的五级分类体系(L1-L5):从仅能完成单一任务的初级阶段(L1)到能够独立完成开放式任务且行为类似人类的高级阶段(L5),为具身AI的发展提供了明确的里程碑!

文章图片
#人工智能#深度学习#机器人
北航团队实现「说句话就能飞」!UAV-FlowColosseo:语言交互无人机控制新突破,开放场景真机实测成功!

UAV-Flow基准为研究如何通过模仿学习使无人机能够解释语言指令并执行精细动态动作提供了一个新的视角。

文章图片
#无人机#人工智能#深度学习 +1
ECCV-2024 | DISCO:基于可微场景语义和粗细粒度控制的具身导航与交互

论文提出的DISCO方法通过动态学习丰富的对象和可供性语义场景表示,结合双层粗到细的动作控制,实现了高效的移动操作。在ALFRED基准上的实验结果表明,DISCO在未见场景中的成功率达到了58.0%,相比现有方法有显著提升,建立了新的最先进性能。

文章图片
#人工智能
ICLR-2025 | 具身导航场景自适应新范式!GSA-VLN:适应通用场景的视觉语言导航

论文提出了GSA-VLN任务,旨在解决智能体在持续环境中的适应问题。通过引入GSA-R2R数据集和GR-DUET方法,显著提高了智能体在多样环境和指令下的适应能力。未来的工作将探索更多的无监督学习方法,以进一步增强智能体在GSA-R2R中的性能。

文章图片
#人工智能#机器人#深度学习
ICRA-2025 | 视觉预测助力机器人自主导航!NavigateDiff:视觉引导的零样本导航助理

论文提出了NavigateDiff,一种新的导航框架,通过视觉预测器和混合融合策略,实现了在新环境中的零样本导航。NavigateDiff方法在模拟和真实世界环境中均表现出强大的鲁棒性和适应性,显著提高了导航性能和效率。

文章图片
#机器人#人工智能
ICCV-2025 | 中科院自动化所世界模型助力具身导航!NavMorph:连续环境中的视觉语言导航自演化世界模型

论文提出了自演化世界模型框架NavMorph,针对连续环境中视觉语言导航(VLN-CE)任务,通过模拟环境动态并实时适应环境变化,显著提升了导航性能,在多个基准测试中表现出色!

文章图片
#人工智能
    共 269 条
  • 1
  • 2
  • 3
  • 27
  • 请选择