logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

5%>100%!预训练模型再也无需微调!Mona:分类、检测、分割任务的涨点神器!

预训练与微调可以提升视觉任务中的迁移效率和性能。最近的增量调参(delta-tuning)方法为视觉分类任务提供了更多选择。尽管这些方法取得了成功,但现有的视觉增量调参技术仍未能在如目标检测和分割等挑战性任务上超越全微调的上限。为了找到全微调的一个有竞争力的替代方案,我们提出了多认知视觉适配器(Mona)调参方法,这是一种新颖的基于适配器的调参方法。首先,我们在适配器中引入了多个面向视觉的滤波器,

文章图片
#分类#数据挖掘#人工智能 +4
奥比中光 Gemini 335 VS 英特尔 Realsense D435i,谁才是顶流?

经过对比测试,可以看出奥比中光Gemini 335在户外阳光、复杂场景、运动场景下的成像效果优于英特尔RealSenseD435i,且具备更大的深度及 RGB FOV,支持硬件与软件D2C。价格方面,Gemini 335的官方定价为1950元,而RealSenseD435i的官方定价为 334 美金(约 2382 元),价格上,Gemini 335更具竞争力。使用体验上,Gemini 335及整个

文章图片
#人工智能
国内首个Halcon深度学习项目实战系统教程

Halcon在机器视觉中的价值主要体现在提供高效、可扩展、灵活的机器视觉解决方案,帮助用户解决各种复杂的机器视觉问题,提高生产效率和产品质量。Halcon的灵活架构使其能够快速开发出任何类型的机器视觉应用。其全球通用的集成开发环境(HDevelop)有助于降低产品成本,并缩短软件开发周期。Halcon拥有超过2100个算子的成像库,该库支持多核平台、AVX2和NEON等特殊指令集以及GPU加速,从

文章图片
#深度学习#人工智能
ECCV‘24开源 | 兼具精确性与鲁棒性!轻松估计相机的内参和外参!ETH & 微软最新力作!

从单个图像,视觉线索可以帮助推断内在和外在的相机参数,如焦距和重力方向。这种单图像校准有利于图像编辑和3D绘图等各种下游应用。目前解决这一问题的方法要么基于具有线和消失点的经典几何,要么基于端对端训练的深度神经网络。学习方法更加健壮,但是很难推广到新的环境,并且不如经典方法准确。我们假设它们缺少3D几何提供的约束。在这项工作中,我们介绍了GeoCalib,这是一种深度神经网络,通过优化过程利用3D

文章图片
#3d#人工智能#开源 +2
香港大学最新开源!使用LiDAR-Visual打造最精确的曲面重建和体渲染!

提出了一种用于激光雷达-视觉系统的统一的表面重建和渲染框架,集成了神经辐射场(NeRF)和神经距离场(NDF ),以从姿态图像和点云中恢复外观和结构信息。我们通过利用可视感知占用图将空间分类为自由、占用、可视未知和背景区域,解决了NeRF和NDF之间的结构可视差距。这种分类有助于恢复场景的完整外观和结构。我们使用空间变化尺度SDF到密度的变换来统一NDF和NeRF的训练,用于结构和外观的细节层次。

文章图片
#人工智能#3d#开源 +1
完爆全部YOLO家族!RT-DETRv3突破目标检测网络的极限!

RT-DETR是第一款基于实时端到端转换器的物体检测器。它的效率来自于框架设计和匈牙利匹配。然而,与YOLO系列等密集监督检测器相比,匈牙利匹配提供的监督要稀疏得多,导致模型训练不足,难以实现最佳结果。为了解决这些问题,我们提出了一种基于RT-DETR的分层密集正监督方法,命名为RT-DETRv3。首先,我们引入一个基于CNN的辅助分支,它提供密集的监督,与原始解码器协作来增强编码器特征表示。其次

文章图片
#目标检测#人工智能#transformer +3
精度暴涨54.8%!8倍加速!IGEV++:立体匹配最新SOTA!代码已开源!​

立体匹配是许多计算机视觉和机器人系统中的核心组件。尽管在过去十年中取得了重大进展,但处理不适定区域和大差异中的匹配歧义仍然是一个公开的挑战。在本文中,我们提出了一种新的用于立体匹配的深度网络架构,称为IGEV++。所提出的IGEV++构建多范围几何编码体(MGEV ),其对不适定区域和大差异的粗粒度几何信息进行编码,并对细节和小差异的细粒度几何信息进行编码。为了构建MGEV,我们引入了一个自适应补

文章图片
#自动驾驶#计算机视觉#人工智能 +1
线结构光(单目+双目)三维重建系统教程

典型的双目线结构光三维测量系统原理简图(图片来自论文:《双目线激光扫描三维重建技术及其在工业测量中的应用》)在光学测量技术中,激光扫描扫描测量技术凭借其非接触、高精度、适用范围广等优点,目前已经成为工业领域中不可或缺的技术。尽管线结构光三维重建技术已经较为成熟,但是依旧缺乏相关的课程,网上开源的课件或代码更是寥寥无几。许多刚入门的研究者需要花费大量时间入门(其中不乏笔者本人)。

文章图片
#人工智能#计算机视觉#开源 +1
浙大最新开源!SplatLoc:基于3D Gaussian实现精确视觉定位(章国锋团队)

视觉定位在增强现实(AR)的应用中起着重要的作用,它使AR设备能够在预先构建的地图中获得它们的6自由度姿态,以便在真实场景中渲染虚拟内容。然而,大多数现有方法不能执行新颖的视图渲染,并且需要大的地图存储容量。为了克服这些限制,我们提出了一种有效的视觉定位方法,能够以较少的参数进行高质量的渲染。具体来说,我们的方法利用3D高斯图元作为场景表示。为了确保用于姿态估计的精确的2D-3D对应,我们开发了用

文章图片
#3d#目标检测#人工智能 +2
一文带你了解工业相机和镜头参数和选型

点击下方卡片,关注「计算机视觉工坊」公众号选择星标,干货第一时间送达作者:小柠檬 | 审核:小凡 | 编辑:计算机视觉工坊添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优..

    共 15 条
  • 1
  • 2
  • 请选择