logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(CVPR-2025)视频生成中的多主体开放集个性化

本文提出Video Alchemist,一种支持多主体开放集个性化的视频生成模型。该模型基于新型Diffusion Transformer模块构建,通过交叉注意力层融合参考图像和主体级文本提示,可同时处理前景物体和背景个性化,无需测试阶段优化。针对数据收集难题,作者设计自动化流程从视频中提取参考帧并构建增强数据集,缓解过拟合问题。此外,提出MSRVTT-Personalization评估基准,在对

文章图片
#音视频#视频生成
(Arxiv-2025)OPENS2V-NEXUS:一个面向主体到视频生成的详细基准与百万规模数据集

本文摘要: OPENS2V-NEXUS是北京大学提出的面向主体到视频(S2V)生成任务的首个综合性基准与百万规模数据集。该工作包含OpenS2V-Eval基准和OpenS2V-5M数据集两部分。OpenS2V-Eval定义了7个S2V生成类别(如单人脸/身体/实体到视频等),包含180个测试样本,并提出了三个创新评估指标:NexusScore(主体一致性)、NaturalScore(自然性)和Gm

文章图片
#音视频#视频生成
(Arxiv-2025)Step1X-Edit:通用图像编辑的实用框架

本文提出Step1X-Edit框架,旨在缩小开源与闭源图像编辑模型的性能差距。通过构建包含11类编辑任务的大规模高质量数据集(生成100万+三元组),并引入多模态大语言模型与扩散模型结合的新架构,该模型在GEdit-Bench基准测试中显著超越现有开源方案,接近GPT-4o等闭源系统性能。关键创新包括可扩展的数据生成流水线、统一的条件编码方法及基于真实场景的评估基准,为通用图像编辑研究提供了新方向

文章图片
(Arxiv-2023)LORA-FA:针对大型语言模型微调的内存高效低秩自适应

低秩自适应 (LoRA) 方法可以大大减少微调大型语言模型 (LLM) 所需的可训练参数数量,但是,它仍然需要昂贵的激活内存来更新低秩权重。减少 LoRA 层数或使用激活重新计算可能会损害微调性能或增加计算开销。在这项工作中,我们提出了 LoRA-FA,这是一种内存高效的微调方法,它可以在不降低性能和进行昂贵的重新计算的情况下减少激活内存。LoRA-FA 选择在每个 LoRA 层中冻结 A 的向下

文章图片
#语言模型#人工智能#自然语言处理
(Arxiv-2025) BLIP3-o:一个完全开源的统一多模态模型家族——架构、训练与数据集

BLIP3-o:一个完全开源的统一多模态模型家族 摘要:本文提出BLIP3-o,一个支持图像理解和生成的开源统一多模态模型家族。通过系统研究自回归与扩散模型的结合方式,我们发现:(1)采用CLIP图像特征比VAE特征更高效且语义更丰富;(2)流匹配损失优于MSE损失;(3)顺序式"先理解后生成"的预训练策略效果最佳。基于这些发现,我们设计了基于扩散Transformer的架构,

文章图片
#transformer#计算机视觉
(Arxiv-2025)Phantom-Data:迈向通用的主体一致性视频生成数据集

本文提出Phantom-Data,首个通用跨对主体一致性视频生成数据集,旨在解决现有模型存在的"复制-粘贴"问题。该数据集包含约100万组身份一致的图像-视频样本对,通过三阶段流程构建:通用主体检测、大规模跨上下文检索和先验引导的身份验证。实验表明,使用Phantom-Data训练能显著提升模型对文本提示的响应能力和生成质量,同时保持主体一致性。相比现有局限于特定领域的数据集,

文章图片
#音视频
(Arxiv-2025)ImageRAG:用于参考引导图像生成的动态图像检索

扩散模型能够合成高质量和多样化的视觉内容。然而,它们在生成罕见或未见概念时存在困难。为了解决这一挑战,我们探索了检索增强生成(Retrieval-Augmented Generation, RAG)在图像生成模型中的应用。我们提出了 ImageRAG,这是一种基于给定文本提示动态检索相关图像,并将其作为上下文来引导生成过程的方法。先前的方法使用检索到的图像来改进生成,但通常需要专门针对检索增强生成

文章图片
#计算机视觉#人工智能#机器学习
(Neurocomputing-2024)RoFormer: 增强型 Transformer 与旋转位置编码

位置编码在 Transformer 结构中已被证明是有效的。它能够为序列中不同位置的元素之间的依赖关系建模提供有价值的监督。在本文中,我们首先探讨了将位置信息整合到基于 Transformer 的语言模型学习过程中的各种方法。然后,我们提出了一种新方法,称为旋转位置编码(Rotary Position Embedding, RoPE),以有效利用位置信息。具体而言,所提出的 RoPE 通过旋转矩阵

文章图片
#transformer#深度学习#人工智能
(Arxiv-2025)Qwen2.5-VL 技术报告

Qwen2.5-VL技术报告介绍了Qwen团队开发的最新视觉语言模型,该模型在基础能力和创新功能上实现重大突破。模型具备增强的视觉识别、精准目标定位、强大文档解析和长视频理解能力,支持边界框和点定位,能稳健处理各类文档数据。技术亮点包括:引入窗口注意力机制优化计算效率,提出动态FPS采样支持视频理解,升级MRoPE对齐绝对时间,扩展预训练语料到4.1万亿token。模型提供三种尺寸,旗舰版72B与

文章图片
#人工智能#transformer
(NIPS-2024)PISSA:大型语言模型的主奇异值和奇异向量适配

为了参数高效地微调(PEFT)大规模语言模型(LLMs),低秩适配(LoRA)方法通过两个矩阵的乘积来近似模型的变化ΔW∈Rm×nΔW∈Rm×n:即A∈Rm×rA∈Rm×r和B∈Rr×nB∈Rr×n,其中r≪min⁡mnr≪minmnAAA初始化为高斯噪声,BBB初始化为零。LoRA 冻结原始模型权重WWW,仅更新 “噪声和零” 适配器,这可能导致收敛速度较慢。

文章图片
#语言模型#人工智能#自然语言处理
    共 104 条
  • 1
  • 2
  • 3
  • 11
  • 请选择