CV炼丹术个人主页

@2501_93716422

CV炼丹术

2025-10-10 15:25:05 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AAAI 2026｜港科大等提出ReconVLA：利用视觉重构引导，刷新机器人操作精度！（含代码）

本文提出ReconVLA模型，通过隐式视觉grounding机制提升机器人操作精度。该方法让模型在训练中重建任务相关的凝视区域，引导视觉注意力聚焦目标物体。模型包含动作生成和视觉重构两个部分，使用扩散变换器从噪声中重建目标区域。

#重构 #机器人 #计算机视觉 +1

ICCV 2025最佳论文出炉！CMU团队带来BrickGPT：让文本生成3D积木！

ICCV 2023 公布多项重磅奖项：CMU团队凭借BrickGPT获最佳论文奖，该研究实现了从文本生成物理稳定的3D积木结构。

#计算机视觉 #图像处理

ICLR 2025 | 伯克利重磅MAST taxonomy，多智能体AI“崩溃诊断”手册问世！失败率直降15.6%

摘要：本文系统研究了多智能体LLM系统（MAS）的失败模式，提出首个基于实证的分类法MAST，涵盖14种细粒度失败模式（如规范违反、智能体不对齐、验证失败等）。通过分析5个主流MAS框架在150+任务中的表现，发现即使使用GPT-4o等强大模型，失败率仍高达75%，且系统设计缺陷是主因。研究采用扎根理论构建分类法，开发了LLM自动标注流程（准确率94%），并通过干预实验验证了MAST的实用性（如C

#人工智能

水下图像模糊难分析？华科、国防科大提出NAUTILUS：首个水下多模态大模型，融合物理先验，带来清晰视角！

华中科技大学与国防科技大学联合提出首个水下多模态大模型NAUTILUS，突破传统水下视觉任务的局限。该研究创新性地构建了包含145万图像-文本对的NautData数据集，并设计了基于物理成像模型的视觉特征增强模块（VFE），在特征空间显式恢复水下退化图像信息。实验表明，NAUTILUS在8类水下任务中表现优异，显著提升识别准确性，且VFE模块可兼容主流多模态模型。研究成果为水下场景理解提供了新思路

#人工智能 #深度学习 #计算机视觉

ICCV 2025 | 浙大、港中文、上交提出EgoAgent：首个集学习、状态预测与动作生成于一身的智能体

论文摘要：本文提出EgoAgent，首个能统一学习第一人称环境表示、预测未来状态并生成三维动作的智能体模型。通过联合嵌入-动作-预测（JEAP）架构，采用交错序列建模和时间不对称的预测-观察机制，实现了三项任务的协同优化。

#计算机视觉

水下目标检测新突破！哈工程&港理工提出U-DEC：端到端架构实现高精度实时检测

U-DECN的核心思路是在卷积编码器-解码器架构中引入多尺度特征、动态查询初始化与颜色去噪机制，以提升检测精度与速度，同时避免使用NMS和复杂注意力模块。U-DECN在卷积编码器-解码器架构中成功融合了多尺度特征、动态查询与颜色去噪机制，显著提升了水下目标检测的精度与速度，并在嵌入式设备上实现实时推理。的端到端水下目标检测模型，它基于卷积网络架构，融合了多尺度特征、动态查询初始化与颜色去噪机制，显

#目标检测 #目标跟踪 #人工智能

从 YOLOv1 到 YOLOv13：十年进化，一文读懂目标检测的「速度与激情」

YOLO系列目标检测算法发展综述 YOLO系列从2015年至今已迭代至v13版本，始终追求速度与精度的平衡。核心创新包括：v1首创单阶段端到端检测；v2引入锚框和多尺度训练；v3采用深度残差网络和三尺度输出；v4系统整合工程优化技巧；v5完善PyTorch生态链；v6-v8逐步实现Anchor-Free和多功能统一；v9改进梯度信息流；v10消除NMS后处理；最新版本开始融合注意力机制和超图建模。

#目标检测 #人工智能 #计算机视觉

AAAI 2026｜厦大提出NFA-ViT：实现局部图像篡改检测精准定位

本文提出BR-Gen数据集和NFA-ViT模型，针对AI生成图像中背景/场景等局部篡改检测难题。通过噪声引导注意力机制增强伪造特征传播，结合加权解码器提升定位精度。实验表明，该方法在BR-Gen数据集上F1达0.972，IoU达0.907，并展现强泛化能力。研究为局部伪造检测提供了新思路，但噪声提取质量对效果影响较大，未来需优化轻量化部署。

#人工智能 #transformer

从 YOLOv1 到 YOLOv13：十年进化，一文读懂目标检测的「速度与激情」

#目标检测 #人工智能 #计算机视觉

AAAI 2026 Oral | 东南大学提出DOC：增强CLIP对抗鲁棒性的方向正交反攻击

本文提出了一种名为“方向正交反攻击”(DOC)的新方法，用于增强视觉-语言预训练模型(VLP)对抗对抗样本的鲁棒性。针对现有测试时反攻击(TTC)方法扰动单一的问题，DOC通过引入正交梯度增强和动量机制，生成更具多样性的反攻击扰动，有效中和多种对抗攻击。

#人工智能 #图像处理 #transformer

共 16 条

请选择