logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

中山&清华:基于大模型的具身智能系统综述

本文综述了基于大模型的具身智能系统,介绍了大模型在具身智能中的感知与理解作用、控制层级、系统架构以及数据来源,并探讨了当前面临的挑战和未来发展方向!

文章图片
#人工智能#深度学习
兼顾长、短视频任务的无人机具身理解!AirVista-II:面向动态场景语义理解的无人机具身智能体系统

AirVista-II系统通过自适应关键帧提取方法,有效提高了无人机对复杂动态内容的感知和推理性能,增强了无人机在动态环境中的通用语义理解和推理能力。

文章图片
#无人机#人工智能
RAG助力具身导航指令扩展!NavRAG:大模型检索增强具身导航中的指令生成

论文提出了NavRAG,一种利用检索增强LLM生成用户需求导航指令的方法。通过构建场景描述树和模拟用户角色,NavRAG有效提高了生成指令的质量和多样性。实验结果表明,NavRAG训练的模型在多个VLN基准上表现出色,验证了该方法的有效性。尽管NavRAG在生成指令的正确性评估上存在一定的局限性,但其在大规模生成导航数据方面的潜力得到了充分验证。

文章图片
#人工智能#深度学习
东北大学“进化论”赋能具身导航!SE-VLN:基于多模态大模型的自进化视觉语言导航框架

论文提出基于多模态大语言模型(MLLM)的自进化视觉语言导航(VLN)框架(SE-VLN)通过模拟自然智能体的进化过程,实现了无需大规模标注数据训练的自进化能力。

文章图片
#人工智能#深度学习
CVPR-2025 | 上交拥挤无序环境下的具身导航最新基准!RoboSense:以机器人为中心的具身感知与导航大规模数据集

论文提出了RoboSense数据集,针对拥挤和非结构化环境中自主智能体导航的自我中心感知任务的大规模多模态数据集和基准,包含丰富的标注信息和多种任务设置!

文章图片
#机器人#人工智能#深度学习
俄罗斯无人机自主任务规划!UAV-CodeAgents:基于多智能体ReAct和视觉语言推理的可扩展无人机任务规划

UAV-CodeAgents是一个可扩展的、基于视觉-语言引导的多智能体系统,用于自主无人机任务生成。该系统通过Qwen2.5系列的LLMs和VLMs实现去中心化推理、像素级语义定位和通过反应式思考循环的自适应规划。

文章图片
#无人机#人工智能#深度学习
HRI-2025 | 大模型驱动的个性化可解释机器人人机交互研究

通过将用户过去的对话总结、机器人高级日志总结以及相关系统数据相结合,该基于LLMs的架构能够提供针对机器人决策和行为的个性化解释。在老年医院巡逻机器人的用例中展示了其可行性和有效性。

文章图片
#机器人#人机交互#人工智能 +1
清华大学城市空间具身推理最新基准!Open3DVQA:全方位评估多模态模型在开放空间的空间推理能力

论文提出了Open3DVQA,一个用于评估多模态大模型在开放空间环境中综合空间推理能力的基准。评估结果表明,当前主流的多模态大模型在定量任务中存在局限性,特别是在定量关系推理和定量目标属性推理方面。通过微调多模态大模型,可以显著增强其空间推理能力。实验结果验证了所提出的训练数据集在提高视觉语言模型空间理解能力方面的有效性。

文章图片
#人工智能#深度学习
室内环境具身智能语义建图研究综述:进展、挑战与未来方向

论文全面综述了室内环境中智能体(如机器人)的语义建图技术,分析了当前的进展、面临的挑战,并提出了未来的研究方向!

文章图片
#人工智能#深度学习
上交解锁遥感图像中的空间理解能力!AirSpatialBot:面向细粒度车辆属性识别与检索的空间感知空中智能体

本文通过引入 AirSpatial 数据集和两阶段训练策略,成功开发了 AirSpatialBot,验证了其在细粒度车辆属性识别和检索任务中的有效性。

文章图片
#人工智能#深度学习
    共 220 条
  • 1
  • 2
  • 3
  • 22
  • 请选择