logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

谷歌重磅新作SigLIP 2:刷新各种视觉多模态任务SOTA!

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【顶会/顶刊】投稿交流群添加微信号:CVer2233,小助手会拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!转载自:数源AI论文名:SigLIP 2: Multilingual Vision-Langua

#人工智能
顶刊TPAMI 2025!清华&西电提出跨模态蒸馏方法,刷新多模态跟踪性能!

在六个多模态跟踪基准上的大量实验表明,所提出的轻量级跟踪器在保持高效性的同时,其性能超越了多数先进方法。:该模块采用两阶段特征蒸馏机制,使学生模型中的轻量化特征提取模块能够从强大的教师模型中学习模态共性信息与模态特定信息(如图8所示)。首先对教师模型提取的单模态RGB特征与TIR特征进行跨模态交互处理,分别在网络不同层级突出模态共性信息与模态特定信息,以更好地指导学生模型学习。当前的多模态跟踪器通

#人工智能
ICLR 2024 | 单图3D重建数字虚拟人!浙大&字节开源Real3D-Portrait算法

CVer祝大家龙年快乐!重磅福利!CVer学术星球春节优惠券来了!为了感谢大家的支持,现在赠送10张50元新用户优惠券(下图左边二维码),10张20元老用户续费券(下图右边二维码),龙年坚持分享更多更好的工作,寒假不停更!助力你的科研和工作!顺利毕业升学,升职加薪!转载自:机器之心近期虚拟人方面的应用如同雨后春笋一般涌现出来。你是否在很多 App 中,看到了 AIGC 让单张照片开口说话的能力?尽

#3d
MedSAM-3:让多模态医学影像进入“概念分割时代”

然而,现有的医疗分割模型普遍不具备这种语义理解能力,限制了其在真实场景中的应用。,提出了一个真正意义上能够“理解医学概念”的跨模态分割模型,覆盖 X-Ray、MRI、CT、超声、内镜、OCT、皮肤镜、病理等多模态图像与视频场景。为实现这一点,研究者以 SAM 3 为基础,在大量多模态医学图像上进行了概念级微调,使模型不仅能够看“形状”,更能理解经过严格筛选的医学语义标签。MedSAM-3 的核心能

#人工智能
ICCV 2025 | 腾讯优图实验室8篇论文入选!AIGC、多模态和人脸等方向

为了解决这些挑战,我们构建了暗光增强与理解之间的通用桥梁,称为通用理解增强,旨在同时提高方法的泛化能力和可扩展性。具体而言,为克服文本提示的局限性,我们引入了一种感知光照的图像提示用于显式引导图像生成,并提出了一种循环注意力适配器以最大化其语义潜力。数据集,我们建立了三个基准测试集,用于评估识别模型在不同场景下的鲁棒性和泛化能力,包括分布内性能、跨方法泛化和跨风格泛化,以应对风格化人脸识别的关键挑

#AIGC
ECCV 2024 | 新突破!DepictQA:图像质量感知的多模态大语言模型

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【Mamba/多模态/扩散】交流群添加微信号:CVer111,小助手会拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!作者:1335(已授权CVer转载)https://zhuanlan.zhihu.com

#语言模型#人工智能#计算机视觉 +2
哈工大&华为提出ControlVideo:一种无需训练的可控视频生成方法

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【扩散模型和Transformer】交流群导读哈工大&华为云最新提出了一种可控的文本-视频生成方法ControlVideo,在无需训练的条件下,仅使用一张2080Ti就可以合成较长的高质量视频。正文文本引导的扩散模型在图像合成领域已经取得了前所未有的成就。但如果想在视频生成中取得不错的效果,仍然需要大量的

#音视频#人工智能#机器学习 +1
ICCV 2025 程明明团队提出DenseVLM:基于多模态大模型的开放词汇密集预测

通过利用 P-VLM 检索到的区域-类别关系 (k, c),我们为 U-VLM 建立了一对一映射,以将区域特征与其对应的类别向量关联起来。为了区分前景和背景的语义区域,我们根据预定义的两个类别集,将这些区域-类别关系解耦为两个不同的组:前景对象 Thing (U) 和背景区域 Stuff (V)。相比之下,我们的方法 DenseVLM 明显优于这些模型,在 COCO 上 Top-1 Mask-T

ICCV 2025 | 小模型也能更“懂”多模态!LLaVA-KD:多模态大语言模型蒸馏框架

现有方法主要通过采用轻量级LLM骨干网络,同时沿用大型MLLM(l-MLLM)的传统“两阶段”训练范式,即预训练(PT)与有监督微调(SFT),以实现视觉与语言特征的跨模态对齐与理解。该方法设计了三阶段训练流程,包括用于增强多模态对齐的蒸馏预训练(DPT)、知识获取的有监督微调(SFT)以及知识迁移的蒸馏微调(DFT)。此外,我们提出创新性的蒸馏策略,将多模态蒸馏(MDist)与关系蒸馏(RDis

#语言模型#人工智能#机器学习 +1
AIGC全新综述!多模态引导的基于文生图大模型的图像编辑综述

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【Mamba/多模态/扩散】交流群添加微信:CVer5555,小助手会拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!前言:提出解决一般性编辑任务的统一框架!近期,复旦大学FVL实验室和南洋理工大学的研究人

#AIGC#人工智能
    共 1351 条
  • 1
  • 2
  • 3
  • 136
  • 请选择