logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ACCV‘24 | 三维重建谁言不败?探索黑暗和无纹理环境下的SfM!

本文中,我们提出了一种使用神经符号距离场(Neural SDF)的同时形状重建和姿态估计方法,用于结构化光(Structured Light,SL)系统,我们称之为主动结构光运动恢复结构(Active SfM)。为了实现这一目标,我们为结构化光系统提出了一种体积渲染管道,并引入了混合编码,以实现稳健的姿态估计和高保真形状重建。实验结果表明,所提出的方法仅利用投影图案的信息和合成数据集及真实数据集中

文章图片
#3d#cnn#人工智能 +2
国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程

不仅为大家详细讲解视觉Transformer的基础知识,各种经典的基于Transformer的目标检测算法,还配有代码解读和实践课程,让大家真正活学活用,理解和掌握这些知识理论。掌握基于Transformer的目标检测算法的思路和创新点,一些Transformer论文涉及的新概念比较多,话术没有那么通俗易懂,读完论文仍然不理解算法的细节部分。目标检测领域中,视觉Transformer不仅可以实现2

文章图片
#自动驾驶#目标检测#transformer +3
仅83M参数量!全民大模型时代来了?MiniDrive:自动驾驶的更高效视觉语言模型!

视觉语言模型(vlm)在自动驾驶中充当通用的端到端模型,通过问答交互执行预测、规划和感知等子任务。然而,大多数现有方法依赖于计算昂贵的视觉编码器和大型语言模型(LLM),使得它们难以部署在现实世界场景和实时应用中。同时,大多数现有的vlm缺乏处理多幅图像的能力,难以适应自动驾驶中的多摄像机感知。为了解决这些问题,我们提出了一个称为MiniDrive的新框架,它包含了我们提出的特征工程专家混合(FE

文章图片
#自动驾驶#语言模型#人工智能 +4
AAAI‘25开源 | mAP暴涨22.8%!中科大新作PromptDet:又快又好的3D目标检测!

在这篇论文中,我们提出了一种轻量级的3D物体检测框架,名为PromptDet,它由一个相机检测器和激光雷达辅助的Prompter组成。PromptDet通过AHA进行激光雷达和相机的融合,如果同时有图像和激光雷达点,它是一个轻量级的多模态检测器。由于CMKl,PromptDet仍然优于仅以图像为输入的基线。AHA和CMKI构成了即插即用的激光雷达辅助Prompter,整个框架的训练非常简单只需少量

文章图片
#3d#目标检测#人工智能
参数量降低32%!精度排名第二!开源、通用的图像特征提取算法来啦!

当前的图像检索系统经常面临领域特异性和泛化问题。这项研究旨在通过开发一个通用特征提取器的计算有效的训练框架来克服这些限制,该通用特征提取器提供跨各种领域的强语义图像表示。为此,我们策划了一个多领域的训练数据集,称为M4D-35k,它允许资源高效的培训。此外,我们对各种最先进的视觉语义基础模型和基于边缘的度量学习损失函数进行了广泛的评估和比较,以了解它们对于有效的通用特征提取的适用性。尽管计算资源有

文章图片
#算法#自动驾驶#目标检测 +2
NIPS‘24开源 | DarkSAM:欺骗分割一切模型!使其不进行分割!

分割一切模型(SAM)因其对未知数据和任务的突出概括而受到广泛关注。尽管前景看好,但SAM的脆弱性,尤其是对普遍敌对扰动(UAP)的脆弱性还没有被彻底研究。本文提出了第一个针对SAM的免提示通用攻击框架DarkSAM,包括基于语义解耦的空间攻击和基于纹理失真的频率攻击。我们首先将SAM的输出分为前台和后台。然后,我们设计一个阴影目标策略,获取图像的语义蓝图作为攻击目标。DarkSAM致力于通过从空

文章图片
#开源#自动驾驶#人工智能 +2
你好,SLAM!帧率高达3000 FPS的极快语义GS SLAM来袭!定位、建图全SOTA!

我们提出了Hi-SLAM,一种语义3D高斯Splatting SLAM方法,其特征在于一种新颖的分层分类表示,该方法能够在3D世界中实现精确的全局3D语义映射、放大能力和显式语义标签预测。语义SLAM系统中的参数使用随着环境复杂性的增加而显著增加,使得场景理解特别具有挑战性并且成本高。为了解决这个问题,我们引入了一种新的分层表示法,它利用大型语言模型(LLM)的能力,以紧凑的形式将语义信息编码到3

文章图片
#cnn#网络#人工智能 +2
排名第一!NVIDIA全新开源FoundationStereo:万能立体匹配!

我们引入了FoundationStereo,这是一个用于立体深度估计的基础模型,能够在无需微调的情况下在各种领域实现强大的零样本泛化。我们设想这样的基础模型将促进立体估计模型在实际应用中的更广泛采用。尽管其泛化能力显著,但我们的方法并非没有局限性。首先,我们的模型尚未针对效率进行优化,在NVIDIA A100 GPU上对大小为375 x1242的图像进行计算需要0.7秒。未来的工作可以探索将蒸馏和

文章图片
#计算机视觉#人工智能#机器学习 +2
完爆全部YOLO家族!RT-DETRv3突破目标检测网络的极限!

RT-DETR是第一款基于实时端到端转换器的物体检测器。它的效率来自于框架设计和匈牙利匹配。然而,与YOLO系列等密集监督检测器相比,匈牙利匹配提供的监督要稀疏得多,导致模型训练不足,难以实现最佳结果。为了解决这些问题,我们提出了一种基于RT-DETR的分层密集正监督方法,命名为RT-DETRv3。首先,我们引入一个基于CNN的辅助分支,它提供密集的监督,与原始解码器协作来增强编码器特征表示。其次

文章图片
#目标检测#人工智能#transformer +3
120倍加速!PanopticNeRF-360:快速生成大量新视点全景分割图像!

训练自动驾驶汽车的感知系统需要大量的注释。然而,在2D图像中手工标记是高度劳动密集型的。虽然现有数据集为预先录制的序列提供了丰富的注释,但它们在标注很少遇到的视点方面存在不足,这潜在地阻碍了感知模型的泛化能力。在本文中,我们提出了PanopticNeRF-360,这是一种新的方法,它将粗糙的3D注释与嘈杂的2D语义线索相结合,以从任何视点生成一致的全景标签和高质量图像。我们的关键见解在于利用3D和

文章图片
#目标跟踪#人工智能#计算机视觉
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择