logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

水下目标检测新突破!哈工程&港理工提出U-DEC:端到端架构实现高精度实时检测

U-DECN的核心思路是在卷积编码器-解码器架构中引入多尺度特征、动态查询初始化与颜色去噪机制,以提升检测精度与速度,同时避免使用NMS和复杂注意力模块。U-DECN在卷积编码器-解码器架构中成功融合了多尺度特征、动态查询与颜色去噪机制,显著提升了水下目标检测的精度与速度,并在嵌入式设备上实现实时推理。的端到端水下目标检测模型,它基于卷积网络架构,融合了多尺度特征、动态查询初始化与颜色去噪机制,显

文章图片
#目标检测#目标跟踪#人工智能
从 YOLOv1 到 YOLOv13:十年进化,一文读懂目标检测的「速度与激情」

YOLO系列目标检测算法发展综述 YOLO系列从2015年至今已迭代至v13版本,始终追求速度与精度的平衡。核心创新包括:v1首创单阶段端到端检测;v2引入锚框和多尺度训练;v3采用深度残差网络和三尺度输出;v4系统整合工程优化技巧;v5完善PyTorch生态链;v6-v8逐步实现Anchor-Free和多功能统一;v9改进梯度信息流;v10消除NMS后处理;最新版本开始融合注意力机制和超图建模。

文章图片
#目标检测#人工智能#计算机视觉
AAAI 2026|厦大提出NFA-ViT:实现局部图像篡改检测精准定位

本文提出BR-Gen数据集和NFA-ViT模型,针对AI生成图像中背景/场景等局部篡改检测难题。通过噪声引导注意力机制增强伪造特征传播,结合加权解码器提升定位精度。实验表明,该方法在BR-Gen数据集上F1达0.972,IoU达0.907,并展现强泛化能力。研究为局部伪造检测提供了新思路,但噪声提取质量对效果影响较大,未来需优化轻量化部署。

文章图片
#人工智能#transformer
从 YOLOv1 到 YOLOv13:十年进化,一文读懂目标检测的「速度与激情」

YOLO系列目标检测算法发展综述 YOLO系列从2015年至今已迭代至v13版本,始终追求速度与精度的平衡。核心创新包括:v1首创单阶段端到端检测;v2引入锚框和多尺度训练;v3采用深度残差网络和三尺度输出;v4系统整合工程优化技巧;v5完善PyTorch生态链;v6-v8逐步实现Anchor-Free和多功能统一;v9改进梯度信息流;v10消除NMS后处理;最新版本开始融合注意力机制和超图建模。

文章图片
#目标检测#人工智能#计算机视觉
AAAI 2026 Oral | 东南大学提出DOC:增强CLIP对抗鲁棒性的方向正交反攻击

本文提出了一种名为“方向正交反攻击”(DOC)的新方法,用于增强视觉-语言预训练模型(VLP)对抗对抗样本的鲁棒性。针对现有测试时反攻击(TTC)方法扰动单一的问题,DOC通过引入正交梯度增强和动量机制,生成更具多样性的反攻击扰动,有效中和多种对抗攻击。

文章图片
#人工智能#图像处理#transformer
AAAI 2026|港科大等提出ReconVLA:利用视觉重构引导,刷新机器人操作精度!(含代码)

本文提出ReconVLA模型,通过隐式视觉grounding机制提升机器人操作精度。该方法让模型在训练中重建任务相关的凝视区域,引导视觉注意力聚焦目标物体。模型包含动作生成和视觉重构两个部分,使用扩散变换器从噪声中重建目标区域。

文章图片
#重构#机器人#计算机视觉 +1
水下图像模糊难分析?华科、国防科大提出NAUTILUS:首个水下多模态大模型,融合物理先验,带来清晰视角!

华中科技大学与国防科技大学联合提出首个水下多模态大模型NAUTILUS,突破传统水下视觉任务的局限。该研究创新性地构建了包含145万图像-文本对的NautData数据集,并设计了基于物理成像模型的视觉特征增强模块(VFE),在特征空间显式恢复水下退化图像信息。实验表明,NAUTILUS在8类水下任务中表现优异,显著提升识别准确性,且VFE模块可兼容主流多模态模型。研究成果为水下场景理解提供了新思路

文章图片
#人工智能#深度学习#计算机视觉
AAAI 2025 | 川大提出Mesorch:CNN与Transformer并行架构,革新图像篡改检测!

如今,图像篡改技术越来越逼真,如何准确识别和定位图像中被篡改的区域成为一个重要课题。现有的方法大多只关注图像的微观痕迹(如噪声、边缘)或宏观语义(如物体内容),难以同时捕捉篡改留下的细微痕迹和整体语义变化,导致定位效果不佳。实验表明,该模型在多个公开数据集上取得了最先进的定位精度,并且在抗干扰能力和计算效率方面也表现优异。作者姓名与单位:朱雪康、马晓晨、苏磊等,分别来自四川大学、MBZUAI、香港

文章图片
#cnn#transformer#人工智能 +1
AAAI 2025 | 川大提出Mesorch:CNN与Transformer并行架构,革新图像篡改检测!

如今,图像篡改技术越来越逼真,如何准确识别和定位图像中被篡改的区域成为一个重要课题。现有的方法大多只关注图像的微观痕迹(如噪声、边缘)或宏观语义(如物体内容),难以同时捕捉篡改留下的细微痕迹和整体语义变化,导致定位效果不佳。实验表明,该模型在多个公开数据集上取得了最先进的定位精度,并且在抗干扰能力和计算效率方面也表现优异。作者姓名与单位:朱雪康、马晓晨、苏磊等,分别来自四川大学、MBZUAI、香港

文章图片
#cnn#transformer#人工智能 +1
ICLR 2025 Spotlight | 打破AI“黑箱”!最新IIS评分框架:揭示模型性能与可解释性的共生关系

本文提出固有可解释性评分(IIS)量化预训练模型表示的可解释性,发现可解释性与分类性能呈正相关,打破了传统认知。

文章图片
#人工智能#计算机视觉
    共 11 条
  • 1
  • 2
  • 请选择