
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文综述了基于大模型的具身智能系统,介绍了大模型在具身智能中的感知与理解作用、控制层级、系统架构以及数据来源,并探讨了当前面临的挑战和未来发展方向!

AirVista-II系统通过自适应关键帧提取方法,有效提高了无人机对复杂动态内容的感知和推理性能,增强了无人机在动态环境中的通用语义理解和推理能力。

论文提出了NavRAG,一种利用检索增强LLM生成用户需求导航指令的方法。通过构建场景描述树和模拟用户角色,NavRAG有效提高了生成指令的质量和多样性。实验结果表明,NavRAG训练的模型在多个VLN基准上表现出色,验证了该方法的有效性。尽管NavRAG在生成指令的正确性评估上存在一定的局限性,但其在大规模生成导航数据方面的潜力得到了充分验证。

论文提出基于多模态大语言模型(MLLM)的自进化视觉语言导航(VLN)框架(SE-VLN)通过模拟自然智能体的进化过程,实现了无需大规模标注数据训练的自进化能力。

论文提出了RoboSense数据集,针对拥挤和非结构化环境中自主智能体导航的自我中心感知任务的大规模多模态数据集和基准,包含丰富的标注信息和多种任务设置!

UAV-CodeAgents是一个可扩展的、基于视觉-语言引导的多智能体系统,用于自主无人机任务生成。该系统通过Qwen2.5系列的LLMs和VLMs实现去中心化推理、像素级语义定位和通过反应式思考循环的自适应规划。

通过将用户过去的对话总结、机器人高级日志总结以及相关系统数据相结合,该基于LLMs的架构能够提供针对机器人决策和行为的个性化解释。在老年医院巡逻机器人的用例中展示了其可行性和有效性。

论文提出了Open3DVQA,一个用于评估多模态大模型在开放空间环境中综合空间推理能力的基准。评估结果表明,当前主流的多模态大模型在定量任务中存在局限性,特别是在定量关系推理和定量目标属性推理方面。通过微调多模态大模型,可以显著增强其空间推理能力。实验结果验证了所提出的训练数据集在提高视觉语言模型空间理解能力方面的有效性。

论文全面综述了室内环境中智能体(如机器人)的语义建图技术,分析了当前的进展、面临的挑战,并提出了未来的研究方向!

本文通过引入 AirSpatial 数据集和两阶段训练策略,成功开发了 AirSpatialBot,验证了其在细粒度车辆属性识别和检索任务中的有效性。








