logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI科研写作新突破:谷歌提出PaperOrchestra,AI智能体天团协作,从草稿到LaTeX一键搞定,模拟顶会接收率84%!

本文提出神经分布先验(NDP)框架,解决LiDAR感知中类别不平衡导致的OOD检测难题。通过可学习的注意力模块动态校准OOD分数,结合Perlin噪声合成OOD样本和软性离群点暴露训练策略,在STU数据集上AP提升超10倍。核心创新在于利用神经网络学习预测分布结构,自适应调整置信度偏差,显著提升自动驾驶场景对未知物体的识别能力。

文章图片
#人工智能#计算机视觉#深度学习
NeurIPS 25 华中科大&国防科大提出NAUTILUS:突破深海视觉边界,首个水下多模态大模型问世!

此外,对于水下生物多样性的挑战,未来可以尝试将零样本学习(zero-shot learning)或小样本学习(few-shot learning)能力融入模型,使其在面对未知物种时也能做出合理的识别和描述,这对于真正的海洋探索应用至关重要。例如,在低光和浑浊场景下,NAUTILUS (LLaVA-1.5) 的性能提升分别高达7.5和8.1 PR@0.5,充分证明了其在复杂多变的水下环境中的强大适应

文章图片
#人工智能#计算机视觉
CV论文速递:覆盖医疗与生物医学影像、觉定位与多智能体轨迹预测、多模态与视觉-语言模型优化等方向(11.10-11.14)

本周精选10篇CV领域前沿论文,覆盖医疗与生物医学影像、觉定位与多智能体轨迹预测、多模态与视觉-语言模型优化、生成模型与域自适应等方向。全部300多篇论文皆可自取。

文章图片
#语言模型#人工智能#自然语言处理 +1
正在爆发!视频扩散模型成论文新赛道,2026发文必冲!

摘要:视频扩散模型因Sora的发布引发广泛关注,但其技术门槛显著高于图像生成。核心挑战在于时序一致性(如帧间连贯性)和计算复杂度(如长视频的显存需求)。当前研究聚焦三大方向:1)时序建模(3DU-Net、时空注意力机制);2)高效采样(DiT架构替代传统U-Net);3)可控生成(文本/动作序列等条件输入)。最新突破包括清华VideoScene框架通过3D感知蒸馏实现单步3D场景生成,以及综述研究

文章图片
#音视频#人工智能#深度学习 +1
时序注意力 + 跨帧对齐重磅突破!荣登Nature顶级子刊!

视频理解技术进展与多模态情感分析新方法 近期视频理解领域聚焦时序注意力与跨帧对齐技术,相比传统3D卷积,注意力机制在长视频建模中更具优势。当前研究趋势包括分解式时空注意力、对齐引导注意力和隐式可学习对齐(如NeurIPS 2022的ATA、ICCV 2023的ILA),以解决计算复杂度和运动对齐问题。 在多模态情感分析方向,KAIST提出多模态自注意力网络(MULTIMODAL SELF-ATTE

文章图片
#计算机视觉#人工智能
时序注意力 + 跨帧对齐重磅突破!荣登Nature顶级子刊!

视频理解技术进展与多模态情感分析新方法 近期视频理解领域聚焦时序注意力与跨帧对齐技术,相比传统3D卷积,注意力机制在长视频建模中更具优势。当前研究趋势包括分解式时空注意力、对齐引导注意力和隐式可学习对齐(如NeurIPS 2022的ATA、ICCV 2023的ILA),以解决计算复杂度和运动对齐问题。 在多模态情感分析方向,KAIST提出多模态自注意力网络(MULTIMODAL SELF-ATTE

文章图片
#计算机视觉#人工智能
掌握小波变换+CNN,发中科院二区及以上不是问题!

近期的计算机视觉研究越来越关注如何突破传统卷积网络在空间域处理的局限性。本次解析的两篇论文共同探索了将信息,特别是**小波变换 (Wavelet Transform)**,融入深度学习模型以解决不同挑战。第一篇论文《MLWNet》聚焦于任务,针对现有模型在处理真实运动模糊时的复杂性和细节恢复不足问题,提出了一种高效的架构,并首创性地设计了**可学习离散小波变换 (Learnable DWT)**模

文章图片
#人工智能#计算机视觉
CVPR 2025 |缺陷检测新纪元!双域Transformer刷新三大数据集SOTA!

此外,模型的性能在多大程度上依赖于所选的小波基函数,以及原型数量的设置,也是未来可以深入研究的方向。例如,在ESDIs-SOD数据集上,相比于同样是基于查询的先进方法PEM,本文方法在平均绝对误差(M)上降低了13.6%,在加权F-measure(上图(图4)的F-measure曲线显示,在绝大多数阈值下,本文方法的曲线都位于其他方法的上方,表明其在各种置信度下都能保持稳健和优越的性能。在空间域,

文章图片
#transformer#深度学习#人工智能 +1
封神之作!CMU的BRICKGPT让文本生成3D积木稳了,喜提ICCV 2025最佳论文!

教育背景:本科毕业于滑铁卢大学(计算机科学与组合优化双学位),卡耐基梅隆大学(CMU)计算机科学在读博士,师从Jun-Yan Zhu教授。研究方向:跨计算机视觉、计算机图形学与人工智能领域,核心探索“如何让AI不仅在计算机中发挥作用,更能落地物理世界”。研究主页:https://avapun.com/

文章图片
#3d#人工智能#计算机视觉
2025 | 北大&阿里等提出UniLIP:小模型大能力,多模态任务全打通!

本文旨在解决现有基于CLIP的统一多模态模型在“理解”与“重建”能力间难以平衡的问题。现有方法或因特征量化而牺牲语义,或因解码器不一致而影响生成保真度。为克服此挑战,论文提出UniLIP框架,其核心技术贡献包括:1)一种新颖的两阶段训练方案,结合自蒸馏损失,使CLIP在保持强大理解能力的同时获得高保真图像重建能力;2)一个为生成与编辑任务设计的双条件架构,该架构联合**多模态大语言模型(MLLM)

文章图片
#人工智能#计算机视觉
    共 44 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择