
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
论文提出的OPEN系统结合了OSM和先进的基础模型,解决了可扩展和高效户外导航的挑战。通过使用OSM进行轻量级地图表示,并结合LLMs和VLMs进行全球定位、地图更新和门牌号码识别,系统克服了传统方法和基于学习方法的局限性。引入的新基准测试为评估自主配送系统提供了一个有效的框架。

FINDINGDORY用于评估具身智能体在长期任务中的记忆能力,通过构造需要回忆过去交互经验的多样化任务,揭示了现有视觉语言模型(VLM)在处理长时序记忆和复杂推理时的局限性!

论文提出的LLaVA-ST是首个能够端到端处理细粒度时空多模态理解任务的MLLM。通过引入LAPE和STP模块,LLaVA-ST显著提高了模型在多个基准测试中的性能。实验结果表明,LLaVA-ST在处理时空交错任务时具有显著优势,并且在开放式视频问答和多选题视频问答任务中也表现出色。LLaVA-ST的提出为未来的MLLMs在细粒度多模态理解任务上的改进提供了重要的参考。

论文总结了具身智能的发展,特别是具身人工智能(EAI)的研究。提出了统一的具身智能框架,强调了形态学、动作、感知和学习之间的协同作用。未来的研究可以从这些组件的内在联系中受益。

论文提出具身AGI的五级分类体系(L1-L5):从仅能完成单一任务的初级阶段(L1)到能够独立完成开放式任务且行为类似人类的高级阶段(L5),为具身AI的发展提供了明确的里程碑!

UAV-Flow基准为研究如何通过模仿学习使无人机能够解释语言指令并执行精细动态动作提供了一个新的视角。

论文提出的DISCO方法通过动态学习丰富的对象和可供性语义场景表示,结合双层粗到细的动作控制,实现了高效的移动操作。在ALFRED基准上的实验结果表明,DISCO在未见场景中的成功率达到了58.0%,相比现有方法有显著提升,建立了新的最先进性能。

论文提出了GSA-VLN任务,旨在解决智能体在持续环境中的适应问题。通过引入GSA-R2R数据集和GR-DUET方法,显著提高了智能体在多样环境和指令下的适应能力。未来的工作将探索更多的无监督学习方法,以进一步增强智能体在GSA-R2R中的性能。

论文提出了NavigateDiff,一种新的导航框架,通过视觉预测器和混合融合策略,实现了在新环境中的零样本导航。NavigateDiff方法在模拟和真实世界环境中均表现出强大的鲁棒性和适应性,显著提高了导航性能和效率。

论文提出了自演化世界模型框架NavMorph,针对连续环境中视觉语言导航(VLN-CE)任务,通过模拟环境动态并实时适应环境变化,显著提升了导航性能,在多个基准测试中表现出色!








