logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文翻译】Multi-modal Visual Tracking Based on Textual Generation——多模态基于文本生成的视觉跟踪

由于其广泛的潜在应用,多模态跟踪引起了极大的关注。现有的多模态跟踪方法通常在RGB跟踪的基础上融合不同视觉模态的数据。然而,仅仅关注视觉模态是不够的,因为跟踪数据的匮乏。受大模型最近成功的启发,本文提出了一种基于文本生成的多模态视觉跟踪(MVTTG)方法,以解决缺乏语言信息和忽略目标与搜索区域之间语义关系的视觉跟踪局限性。为此,我们利用大模型生成图像描述,使用这些描述提供关于目标外观和运动的补充信

文章图片
#计算机视觉#人工智能#深度学习
【论文翻译】LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving —用于自动驾驶的轻量级端到端多模态模型

本文介绍了LightEMMA,一个用于评估视觉-语言模型(VLM)在自动驾驶中性能的轻量级端到端框架。我们使用该框架,通过思维链提示策略,在nuScenes数据集上对12个主流VLM进行了系统性评估。实验结果表明,尽管VLM展现出强大的场景理解能力,但在推理速度、成本和预测准确性方面仍存在显著局限。其预测精度甚至不优于简单的基线模型,且在复杂场景下决策不稳定,存在安全隐患。研究强调,未来需要开发针

文章图片
#人工智能#图像处理#计算机视觉 +1
【论文翻译】OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving—用于端到端自动驾驶的开源多模态模型

摘要 OpenEMMA提出了一种基于开源多模态大语言模型(MLLMs)的端到端自动驾驶框架,通过思维链推理提升复杂场景下的决策能力。该方法整合视觉输入与历史驾驶状态,分解轨迹规划为可解释的速度和曲率预测,并引入微调YOLO模型增强目标检测。实验在nuScenes数据集上验证了框架的有效性,相比零样本基线显著降低轨迹误差(如LLaVA-1.6模型降低30%),但未微调的MLLMs性能仍受限。开源代码

文章图片
#自动驾驶#人工智能#机器学习 +1
【论文翻译】Embodied navigation-具身导航

具身导航是一种新兴的导航范式,通过物联网(IoT)和人工智能(AI)技术,使移动物体能够与物理世界交互,获取局部地图、定位物体并优化导航路线。本文系统综述了具身导航的研究进展,涵盖感知、导航、效率优化及其赋能的任务。感知部分探讨了几何感知和语义理解,导航部分分析了基于几何和学习增强的方法,效率优化部分讨论了延迟、能效和鲁棒性改进策略。具身导航赋能的任务包括自动驾驶、辅助机器人、仿生应用等。尽管具身

文章图片
#计算机视觉#人工智能#算法 +1
【论文翻译】π0: A Vision-Language-Action Flow Model for General Robot Control-一种用于通用机器人控制的视觉-语言-动作流模型(二)

我们的实验评估包括直接评估实验(将我们的基础(预训练)模型与通过直接提示的其他模型设计进行比较),以及详细的微调实验(在具挑战性的下游任务上评估我们的模型,并将其与文献中提出的用于灵巧操作的其他方法进行比较)。我们研究以下研究问题:在我们第一组实验中,我们在完整的混合数据集上进行预训练后,不进行任何后训练,评估模型,以考察我们的基础模型执行各种任务的能力。我们与文献中的其他机器人基础模型进行比较:

文章图片
#机器人#深度学习#人工智能
【论文翻译】Embodied navigation-具身导航

具身导航是一种新兴的导航范式,通过物联网(IoT)和人工智能(AI)技术,使移动物体能够与物理世界交互,获取局部地图、定位物体并优化导航路线。本文系统综述了具身导航的研究进展,涵盖感知、导航、效率优化及其赋能的任务。感知部分探讨了几何感知和语义理解,导航部分分析了基于几何和学习增强的方法,效率优化部分讨论了延迟、能效和鲁棒性改进策略。具身导航赋能的任务包括自动驾驶、辅助机器人、仿生应用等。尽管具身

文章图片
#计算机视觉#人工智能#算法 +1
【论文翻译】π0: A Vision-Language-Action Flow Model for General Robot Control-一种用于通用机器人控制的视觉-语言-动作流模型(一)

机器人学习具有巨大潜力,有望释放灵活、通用和灵巧机器人系统的全部潜能,并解决人工智能领域一些最深层次的问题。然而,将机器人学习提升到有效现实世界系统所需的通用性水平,在数据、泛化性和鲁棒性方面面临着主要障碍。在本文中,我们讨论了通用机器人策略(即机器人基础模型)如何能够应对这些挑战,以及我们如何能够为复杂且高度灵巧的任务设计有效的通用机器人策略。我们提出了一种新颖的流匹配架构,该架构构建于预训练的

文章图片
#机器人#人工智能#深度学习
【论文翻译】OpenCalib: A multi-sensor calibration toolbox for autonomous driving

准确的传感器校准是自主车辆多传感器感知的先决条件。尽管有许多与传感器校准相关的开源项目,但大多数是为特定传感器或应用场景设计的。为此,我们提出了OpenCalib,一个具有丰富传感器校准方法的工具箱,专为自主驾驶车辆设计。OpenCalib覆盖了最常用的传感器,包括LiDAR、相机、IMU、雷达以及不同的应用场景,包括基于道路场景的手动和自动校准、生产线上的校准以及在线校准。据我们所知,OpenC

文章图片
#计算机视觉#自动驾驶
【论文翻译】OpenCalib: A Multi-sensor Calibration Toolbox for Autonomous Driving

准确的传感器校准是自主车辆多传感器感知和定位系统的前提条件。传感器的内参校准旨在获得传感器内部的映射关系,而外参校准则是将两个或多个传感器转化为统一的空间坐标系统。大多数传感器在安装后需要进行校准,以确保传感器测量的准确性。为此,我们推出了OpenCalib,一个包含丰富的多种传感器校准方法的工具箱。OpenCalib覆盖了不同应用场景下的手动校准工具、自动校准工具、工厂校准工具和在线校准工具。同

文章图片
#计算机视觉#自动驾驶
到底了