logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CVPR 2025 |缺陷检测新纪元!双域Transformer刷新三大数据集SOTA!

此外,模型的性能在多大程度上依赖于所选的小波基函数,以及原型数量的设置,也是未来可以深入研究的方向。例如,在ESDIs-SOD数据集上,相比于同样是基于查询的先进方法PEM,本文方法在平均绝对误差(M)上降低了13.6%,在加权F-measure(上图(图4)的F-measure曲线显示,在绝大多数阈值下,本文方法的曲线都位于其他方法的上方,表明其在各种置信度下都能保持稳健和优越的性能。在空间域,

文章图片
#transformer#深度学习#人工智能 +1
封神之作!CMU的BRICKGPT让文本生成3D积木稳了,喜提ICCV 2025最佳论文!

教育背景:本科毕业于滑铁卢大学(计算机科学与组合优化双学位),卡耐基梅隆大学(CMU)计算机科学在读博士,师从Jun-Yan Zhu教授。研究方向:跨计算机视觉、计算机图形学与人工智能领域,核心探索“如何让AI不仅在计算机中发挥作用,更能落地物理世界”。研究主页:https://avapun.com/

文章图片
#3d#人工智能#计算机视觉
2025 | 北大&阿里等提出UniLIP:小模型大能力,多模态任务全打通!

本文旨在解决现有基于CLIP的统一多模态模型在“理解”与“重建”能力间难以平衡的问题。现有方法或因特征量化而牺牲语义,或因解码器不一致而影响生成保真度。为克服此挑战,论文提出UniLIP框架,其核心技术贡献包括:1)一种新颖的两阶段训练方案,结合自蒸馏损失,使CLIP在保持强大理解能力的同时获得高保真图像重建能力;2)一个为生成与编辑任务设计的双条件架构,该架构联合**多模态大语言模型(MLLM)

文章图片
#人工智能#计算机视觉
ICCV 2025 | CoopTrack 震撼发布!清华联手百度,端到端合作感知新突破!

合作序列感知旨在通过融合自车感知数据与其他智能体信息,实现对周围环境的长期全面理解。本文聚焦车-路协同3D多目标跟踪任务,以图像为输入,预测随时间变化的3D边界框集合BtB_{t}Bt​,且框的ID在帧间保持一致。每个边界框bti∈Btbti​∈Bt​包含中心坐标、尺寸、方向、速度及类别标签,定义为btixyzwlhθvxvybti​xyzwlhθvx​vy​。

文章图片
#人工智能#计算机视觉
CV论文速递:涵盖视频生成、视觉理解、图像表征、3D视觉等核心方向!(10.13-10.17)

本周精选10篇时间序列领域前沿论文,覆盖4个时序方向:时间序列预测与泛化能力优化,时序数据驱动的跨领域应用,时间序列异常检测与事件预测,时间序列推理与不确定性量化方向。源码和论文感兴趣的dd。

文章图片
#人工智能#计算机视觉
2025 | 南洋理工等提出Light-X,单目视频也能一键换视角与光影!

Light-X这篇论文成功地提出了首个能够对单目视频同时进行相机视角和光照联合控制的生成框架。其核心理论贡献在于巧妙地设计了一套解耦机制,利用动态点云分别承载几何与光照信息,从而将复杂的控制问题简化。在实验上,通过创新的Light-Syn数据合成管线,模型得以在多样化的数据上进行有效训练,并在联合控制与视频重打光两个任务上均取得了超越现有方法的优异表现。这项研究极大地推动了可控视频生成技术的发展,

文章图片
#音视频
2025 | 牛津&中科等强强联手推出 VCode:图像秒变代码,多模态性能暴涨12.3点!

本文的核心结论是,现有的多模态大模型虽然在语言任务上表现出色,但在将真实世界的图像转化为忠实的、符号化的SVG代码方面能力还很欠缺。论文提出了一个全新的基准VCode来度量这种“视觉编码”能力,并设计了VCoder框架,通过“迭代修正”和“调用外部视觉工具”两种方式,显著提升了模型在该任务上的表现。这项研究告诉我们,未来的多模态模型不仅要能“看懂”图像,更要能用一种结构化的、可执行的语言(如SVG

文章图片
#人工智能#计算机视觉
ICLR 2025 | 颠覆!NBP方法推翻传统NBV,复杂室内建图效率飙升!

本研究旨在解决主动3D建图问题,即智能体如何找到一条最高效的轨迹来完全重建一个未知场景。现有方法因其短视的决策模式,容易在复杂环境中陷入局部,且缺乏足够复杂的基准数据集进行评估。为克服这些瓶颈,本文贡献了两个核心成果:提出了一个名为AiMDoom的全新室内场景数据集,通过程序化生成不同几何复杂度的地图,为主动建图研究提供了更具挑战性的基准。提出了一种名为“下一最佳路径(NBP)”的新方法,该方法通

文章图片
#人工智能#计算机视觉
NeurIPS 25 华中科大&国防科大提出NAUTILUS:突破深海视觉边界,首个水下多模态大模型问世!

此外,对于水下生物多样性的挑战,未来可以尝试将零样本学习(zero-shot learning)或小样本学习(few-shot learning)能力融入模型,使其在面对未知物种时也能做出合理的识别和描述,这对于真正的海洋探索应用至关重要。例如,在低光和浑浊场景下,NAUTILUS (LLaVA-1.5) 的性能提升分别高达7.5和8.1 PR@0.5,充分证明了其在复杂多变的水下环境中的强大适应

文章图片
#人工智能#计算机视觉
NeurIPS 2025 香港理工&OPPO&哈佛等提出DNAEdit:革新文生图编辑的直接噪声对齐框架!

在理论上,它创新性地设计了“直接噪声对齐”(DNA)来替代传统的反演过程,从根本上解决了误差累积问题,从而获得高度精确的结构化噪声。例如,与同样表现不俗的FTEdit相比,DNAEdit在保持相似的整体CLIP相似度的同时,拥有更好的背景保真度,并且在编辑区域的CLIP得分更高(22.71 vs 22.27),说明它在精确编辑的同时更好地保护了非编辑区。的定性比较结果更加直观。通过这种方式,DNA

文章图片
#人工智能#计算机视觉
    共 38 条
  • 1
  • 2
  • 3
  • 4
  • 请选择