
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在传统的光流与立体深度估计训练中,常使用统一的L1或L2损失对所有像素赋予相同权重,忽略了像素或区域在学习过程中的差异化难度。本文针对这一问题,提出两类基于不确定性的辅助损失:一是Difficulty Balancing(DB)损失,通过误差驱动的置信度映射提升模型对难学像素的关注;二是Occlusion Avoiding(OA)损失,基于前向-后向一致性检测遮挡区域,从而调整遮挡像素的训练权重。

本文的研究目标是解决统一多模态模型中图像理解与生成能力之间的性能冲突。具体问题是,现有的视觉分词策略(连续嵌入用于理解,离散令牌用于生成)导致LLM内部产生任务冲突,影响模型整体性能。为解决此问题,论文提出了 Manzano 模型,其核心技术贡献是设计了一个混合图像分词器。该分词器使用一个共享的视觉编码器,派生出两个适配器:一个连续适配器为理解任务生成连续嵌入,一个离散适配器为生成任务提供离散令牌

本文的研究目标是解决统一多模态模型中图像理解与生成能力之间的性能冲突。具体问题是,现有的视觉分词策略(连续嵌入用于理解,离散令牌用于生成)导致LLM内部产生任务冲突,影响模型整体性能。为解决此问题,论文提出了 Manzano 模型,其核心技术贡献是设计了一个混合图像分词器。该分词器使用一个共享的视觉编码器,派生出两个适配器:一个连续适配器为理解任务生成连续嵌入,一个离散适配器为生成任务提供离散令牌

近年来,基于卷积神经网络(CNN)的红外小目标检测方法表现出色,但这些方法通常采用标准卷积,忽略了红外小目标像素分布的空间特性。为此,研究者提出了一种新颖的风车形卷积(PConv),以替代骨干网络低层的标准卷积,它更符合微弱小目标的像素高斯空间分布,能增强特征提取、显著增大感受野,且参数增加极少。此外,鉴于现有损失函数在结合尺度和位置损失时,未充分考虑不同目标尺度下这些损失的敏感性差异,限制了对微

近年来,基于卷积神经网络(CNN)的红外小目标检测方法表现出色,但这些方法通常采用标准卷积,忽略了红外小目标像素分布的空间特性。为此,研究者提出了一种新颖的风车形卷积(PConv),以替代骨干网络低层的标准卷积,它更符合微弱小目标的像素高斯空间分布,能增强特征提取、显著增大感受野,且参数增加极少。此外,鉴于现有损失函数在结合尺度和位置损失时,未充分考虑不同目标尺度下这些损失的敏感性差异,限制了对微

在大模型与大数据集的驱动下,视觉与语言表示间的几何相似性正在增强——同一世界中的“猫、狗、飞机”等概念在两种模态内部的两两距离结构逐步趋同。基于这一“柏拉图式表示假说”,本文探索了无并行数据的视觉—语言对应学习。核心思路是:仅依赖各自模态内部的相似度矩阵,将跨模态匹配转化为最小化配对后失真的 QAP;在算法上提出因子化 Hahn‑Grant下界法,内存复杂度由 O(N^4) 降至 O(N^3),并

本文直面当前 AI 生成视频检测器在泛化性、可解释性和效率方面的挑战。受物理世界基本运动定律的启发,本文提出了一种全新的、免训练的检测器 D3。D3 的核心思想是,真实视频和 AI 生成视频在二阶时序动态上存在本质差异。通过量化这种差异的波动性,D3 能够高效且准确地识别出 AI 的不自然平滑伪影。

本论文提出的π³是一种完全置换等变的前馈神经网络,通过预测仿射不变相机姿态和尺度不变局部点图,打破了视觉几何重建对固定参考视图的依赖。该模型在相机姿态估计、点图估计、视频深度估计和单目深度估计等多项任务中,在RealEstate10K、Sintel、KITTI等多个数据集上均取得了SOTA或可比性能,同时具有输入顺序鲁棒性强、可扩展性好、收敛速度快等优势。

首次引入正交子空间建模思想用于AI生成图像检测,将图像表示显式分解为两个正交的子空间:一个捕捉泛化能力强的判别特征子空间,另一个捕捉与特定生成模型相关的伪迹信息子空间。这一设计使得模型能有效区分真实图像与多种未知生成模型生成的图像,显著提升了跨分布检测能力。

包含数据生成模型和医学图像分割模型,数据生成模型基于条件生成对抗网络(GANs),由掩码到图像生成器和判别器组成,生成器具有可学习的神经架构,以分割掩码为输入生成对应医学图像,判别器区分合成与真实医学图像;分割模型具有可学习权重参数和固定架构。数据生成采用反向机制:从专家标注的分割掩码开始,先应用旋转、翻转等基本图像增强操作生成增强掩码,再输入深度生成模型生成对应医学图像,生成的图像-掩码对作为分
