logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI论文】VisualPRM:一种用于多模态推理的有效过程奖励模型

我们推出了VisualPRM,这是一种拥有80亿参数的高级多模态过程奖励模型(Process Reward Model, PRM),它采用“最佳N选”(Best-of-N, BoN)评估策略,能够提升现有不同规模和系列的多模态大语言模型(Multimodal Large Language Models, MLLMs)的推理能力。具体而言,我们的模型提升了三类MLLMs以及四种不同模型规模的推理性能

文章图片
#人工智能
【英伟达AI论文】多模态大型语言模型的高效长视频理解

近年来,基于视频的多模态大型语言模型(Video-LLMs)通过将视频处理为图像帧序列,显著提升了视频理解能力。然而,许多现有方法在视觉主干网络中独立处理各帧,缺乏显式的时序建模,这限制了它们捕捉动态模式并高效处理长视频的能力。为了解决这些局限,我们提出了STORM(多模态大型语言模型的时空令牌缩减方法),这是一种在图像编码器和大型语言模型之间集成专用时序编码器的新颖架构。我们的时序编码器利用Ma

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】Seedream 4.0:迈向下一代多模态图像生成

摘要:Seedream4.0是一款高效多模态图像生成系统,集成了T2I合成、图像编辑和多图组合功能。采用高效扩散变换器与压缩VAE架构,显著减少图像标记数量,支持1K-4K高分辨率生成。系统通过数十亿图文对预训练,结合对抗蒸馏和量化技术,实现1.8秒快速推理2K图像。在MagicBench4.0评估中,其T2I和编辑任务表现优于GPT-Image等模型,尤其在多图编辑和专业内容生成方面优势突出。未

文章图片
#人工智能
【AI论文】MM-IFEngine:迈向多模态指令遵循

指令遵循(IF)能力衡量多模态大语言模型(MLLM)准确理解用户告诉他们的内容以及他们是否做得正确的能力。现有的多模态指令训练数据很少,基准测试简单,指令原子化,对于要求精确输出约束的任务,评估策略不精确。为了解决这个问题,我们提出了MM-IFEngine,这是一种有效的流水线,可以生成高质量的图像指令对。我们的MM-IFEngine管道产生了大规模、多样化和高质量的训练数据MM-IFInstru

文章图片
#人工智能
【英伟达AI论文】Cosmos-Transfer1:具有自适应多模态控制的条件世界生成

我们推出Cosmos-Transfer,这是一款条件世界生成模型,能够基于多种模态(如分割、深度、边缘等)的多个空间控制输入来生成世界模拟。在设计上,该空间条件方案具有自适应性和可定制性。它允许在不同空间位置对不同条件输入赋予不同权重。这实现了高度可控的世界生成,并适用于多种世界到世界的迁移用例,包括从模拟到现实(Sim2Real)。我们进行了广泛评估,以分析所提模型,并展示其在物理人工智能(Ph

文章图片
#人工智能#计算机视觉
【AI论文】视频大语言多模态模型(Video-LMM)后训练:深入探索基于大型多模态模型的视频推理

视频理解是计算机视觉的前沿方向,要求模型处理复杂的时空关系和多模态信息。近期出现的视频大语言多模态模型(Video-LMMs)将视觉编码器与语言模型结合,展现出强大能力。本文首次系统综述了Video-LMMs的后训练方法,包括三大支柱:基于思维链的监督微调(SFT)、基于可验证目标的强化学习(RL)以及测试时扩展(TTS)。研究提出了结构化分类体系,分析了这些技术在视频任务中的适配与挑战,如时间定

文章图片
#人工智能
【AI论文】MinMo:一种用于无缝语音交互的多模态大型语言模型

MinMo的模型架构如图3所示,主要包括语音编码器、输入投影器、大型语言模型(LLM)、语音令牌语言模型(Voice Token LM)、输出投影器、令牌到波形(Token2Wav)合成器以及全双工预测器。语音编码器:采用预训练的SenseVoice-large编码器模块,提供强大的语音理解能力,支持多语种语音识别、情感识别和音频事件检测。输入投影器:由两层Transformer和一个CNN层组成

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】HuMo:通过协同多模态条件调控实现以人类为中心的视频生成

摘要:本研究提出HuMo框架,解决人类中心视频生成(HCVG)中的多模态协同控制难题。针对数据稀缺问题,构建了包含文本、图像和音频的高质量对齐数据集;针对协同控制挑战,设计了两阶段渐进训练范式:第一阶段采用微创图像注入策略保持人物一致性,第二阶段通过音频交叉注意力层和预测聚焦策略实现音画同步。推理阶段引入时间自适应的分类器自由引导策略实现细粒度控制。实验表明,HuMo在人物一致性和音画同步任务上均

文章图片
#人工智能#音视频
【AI论文】VBench-2.0:推动视频生成基准套件发展,聚焦内在真实性评估

视频生成技术已取得显著进展,从生成不真实的输出,发展到能够制作出视觉上令人信服且时间连贯的视频。为了评估这些视频生成模型,已经开发了诸如VBench等基准测试工具来评估其真实性,衡量因素包括每帧的美学效果、时间一致性以及对基本提示的遵循程度。然而,这些方面主要体现的是表面真实性,即关注视频在视觉上是否令人信服,而非其是否遵循现实世界的原则。尽管最近的模型在这些指标上表现越来越好,但它们仍然难以生成

文章图片
#人工智能
【AI论文】Skywork R1V2:用于推理的多模态混合强化学习

我们展示了Skywork R1V2,这是下一代多模态推理模型,也是其前身Skywork R1V的重大飞跃。R1V2的核心是引入了一种混合强化学习范式,将奖励模型指导与基于规则的策略相协调,从而解决了长期以来在复杂的推理能力和广泛的泛化能力之间取得平衡的挑战。为了进一步提高训练效率,我们提出了选择性样本缓冲(SSB)机制,该机制通过在整个优化过程中优先考虑高价值样本,有效地解决了组相对策略优化(GR

文章图片
#人工智能
    共 598 条
  • 1
  • 2
  • 3
  • 60
  • 请选择