logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SET精读:从小白到博士,彻底拆解小目标检测的光谱增强核心逻辑

最近几年,小目标检测成了计算机视觉落地的核心卡脖子难题——从遥感卫星影像识别地面小型违章建筑、无人机巡检捕捉电力线路上的微小缺陷,到安防监控识别远处的行人/车辆、自动驾驶感知路面的锥桶/井盖,这些像素尺寸通常小于32×32的“微小目标”,其检测精度直接决定了整个视觉系统能否安全、可靠落地。而小目标检测有一个核心痛点传统小目标检测模型,要么在空间域做简单的图像缩放/超分来提升特征,却引入大量背景噪声

文章图片
#目标检测#人工智能#计算机视觉 +1
SAIST精读:从小白到博士,彻底拆解CLIP引导的零样本红外小目标分割核心逻辑

最近几年,红外小目标分割成了安防监控、军事侦察、无人机巡检、自动驾驶夜间感知等领域的核心感知技术——从边境线的夜间预警、无人机对地面小型目标的识别,到自动驾驶夜间识别道路上的碎石/落物,都需要能在复杂背景(如天空、树林、城市灯光)中精准分割出像素级尺寸的红外小目标。而红外小目标分割有一个核心痛点。

文章图片
#深度学习#计算机视觉#人工智能
MANTA精读:从小白到博士,彻底拆解面向微小物体的大规模多视图视觉-文本异常检测数据集的核心逻辑

MANTA是面向微小物体的大规模多视图视觉-文本异常检测数据集,针对现有数据集单视角、无文本模态、难以适配微小物体检测的痛点构建。数据集覆盖农业、医药、电子、机械、杂货5大领域38类微小物体,含13.7万余张五视角高清图像,8617张异常图像带像素级标注,可完整覆盖物体表面。文本模块包含875条陈述性异常知识与2000道图文多选题,支撑视觉-文本联合学习。论文基于BLIP-2结合LoRA设计基线模

文章图片
#人工智能#计算机视觉#深度学习
Infrared Small Target Detection with Scale and Location Sensitivity 精读:从小白到博士,彻底拆解尺度与位置敏感的红外小目标检测核心逻

Infrared Small Target Detection with Scale and Location Sensitivity:不用复杂的算力消耗,只用 “多尺度金字塔特征增强 + 位置敏感上下文注意力 + 轻量级杂波抑制分支”,首次实现了尺度与位置敏感的红外小目标检测,既能自适应识别不同尺度的微小目标,又能在图像任意位置稳定检测,还能保证实时推理速度,大幅缩小了和实验室理想模型的性能差距

文章图片
#目标检测#人工智能#计算机视觉 +1
Feature Information Driven Position Gaussian Distribution Estimation for Tiny Object Detection 精读

Feature Information Driven Position Gaussian Distribution Estimati采用即插即用轻量化架构,无需大幅改造原有检测器,通过 “像素特征信息无监督建模(信息熵最小化)+ 位置高斯分布有监督预测” 双模块协同,从信息论视角精准挖掘弱激活区域,用自适应高斯分布强化小目标特征,首次实现像素级信息驱动的小目标特征增强,在 VisDrone2019

文章图片
#人工智能#计算机视觉#机器学习
Zero-Shot 4D Lidar Panoptic Segmentation 精读:从小白到博士,彻底拆解零样本4D激光雷达全景分割的核心逻辑

本文提出了一种零样本4D激光雷达全景分割方法SAL-4D,通过结合2D视觉大模型(SAM2和CLIP)的能力,实现了无需人工标注的开放世界物体识别与跟踪。该方法利用同步摄像头视频生成伪标签,通过"Track-Lift-Flatten"机制将2D分割结果精确映射到3D点云,并采用时空一致的渐进蒸馏训练端到端4D模型。实验表明,该方法在零样本条件下达到了接近全监督模型的性能,显著提

文章图片
#人工智能#计算机视觉#深度学习
基于体素动态Token压缩的零样本3D问答 论文精读:从小白到博士全阶段拆解

本文提出了一种基于体素动态Token压缩的零样本3D问答方法,解决了当前3D场景问答中视觉Token过多导致的计算效率低下问题。该方法通过将多视角2D图像特征投影到3D空间,采用体素化动态Token压缩策略,在保持细粒度细节的同时大幅减少Token数量。实验表明,该方法能将视觉Token减少90%以上,问答性能仅下降不到2%,推理吞吐量提升47.6%,且无需额外训练即可适配现有视觉语言模型。

文章图片
#3d#人工智能#计算机视觉 +1
Zero-1-to-A 精读:从小白到博士,彻底拆解单图生成可动画头部 Avatar 的核心逻辑

最近几年,3D 数字人(Avatar)成了计算机视觉和图形学交叉领域的热门方向,从游戏、元宇宙到虚拟直播,都需要高保真、可驱动、实时渲染的数字人头。而数字人头生成有一个核心痛点传统高质量可动画头部 Avatar,要么需要大量多视角视频、专业采集设备,要么依赖海量合成数据,普通人手里只有一张照片时,根本做不出能转头、做表情的数字人。同时,视频扩散模型 的兴起给 “补数据” 带来了希望 —— 它能根据

文章图片
#人工智能
2DMamba 精读:从小白到博士,彻底拆解 2DMamba 让 Mamba 不再只会按一维序列思考,而是真正学会按二维图像结构思考

把 Mamba 这种高效的序列建模能力,真正变成一个 适合图像二维结构的模型,尤其是适合超大图像,比如病理全切片图像(WSI)。作者认为,过去很多视觉 Mamba 方法虽然名字上做视觉,但本质上还是把二维图像“拉平成一维序列”来处理,这会破坏图像的空间邻接关系;而他们提出的 2DMamba,是直接按二维扫描和聚合,尽量保留图像天然的二维结构,同时还设计了高效 CUDA 算子,避免二维扫描太慢。论文

文章图片
#人工智能#计算机视觉
U-Net 与深度学习的完美结合:图像分割的高效解决方案

本文深入解析了 U-Net 模型的结构与应用,特别是在医学图像分割中的优势。我们介绍了 U-Net 的编码器、解码器及跳跃连接设计,阐述了卷积、池化、上采样等核心操作及损失函数(如 Dice 系数与交叉熵)。此外,提供了基于 PyTorch 的 U-Net 实现代码,涵盖数据预处理、模型训练、优化与评估。通过实际代码,读者可以了解如何高效训练 U-Net 模型,并应用于实际的图像分割任务。

文章图片
#深度学习#人工智能#计算机视觉
    共 19 条
  • 1
  • 2
  • 请选择