logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

入门必读!多模态大语言模型的演变全回顾!(视觉定位、图像生成、编辑、理解)

注意力算子和Transformer架构的引入使得我们可以创建大规模的,能够处理各种模态的模型。这一进步主要归因于算子的多功能性和架构的适应性。最初,它们主要应用于语言模型,但很快就扩展到支持视觉处理骨干,并最终用于集成多种模态的模型。随着复杂的大语言模型的激增,尤其是它们在上下文学习方面的能力的进步,鼓励研究人员将这些模型的范围扩大到多种模态,既作为输入又作为输出。这种扩展促使了像GPT-4V和G

文章图片
#人工智能#AIGC
2张显卡即可20FPS流式生成!SoulX-LiveAct开启“小时级”实时数字人交互新时代

不一致的学习信号:现有的大多数强制策略在传播样本级表示时,扩散状态不匹配,导致学习信号不一致和收敛不稳定。推理效率限制:历史表示无限制增长且缺乏结构,阻碍了缓存状态的有效重用,严重限制了推理效率,无法实现真正无限的视频生成。

文章图片
#人工智能#AIGC#视频生成
他们吃的那么香,我都看饿了!港大&字节发布领先商用级图像视频生成模型Goku有点东西

现有的图像与视频生成模型在质量、一致性和计算效率方面仍存在不足。需要构建大规模、高质量的数据集,以支持高性能生成模型的训练。现有的生成架构未能充分统一图像和视频的表示,影响跨模态生成效果。训练大规模生成模型的计算成本高,需优化并行计算与存储机制。

文章图片
#视频生成
首个亚秒启动的14B“数字人”开源!效率飙23倍!SoulX-LiveTalk:32FPS让对话丝滑如真人

SoulX-LiveTalk提出了一种14B参数的实时音频驱动虚拟形象框架,通过创新的双向蒸馏策略和全栈优化实现高效生成。该框架摒弃传统单向范式,采用双向注意力机制增强运动连贯性,结合多步自校正机制防止长周期误差累积。通过混合序列并行、并行VAE等优化技术,系统在8个H800节点上实现0.87秒启动延迟和32FPS吞吐量。实验表明,该框架在视觉质量、唇音同步和长期稳定性上均优于现有方法,训练效率提

文章图片
#视频生成
连环画创作源泉!港科大、腾讯等开源SEED-Story:开创性多模态长故事生成!

文章链接:https://arxiv.org/pdf/2407.08683github链接:https://github.com/TencentARC/SEED-StorySEED-Story,一种利用多模态大语言模型(MLLM)生成具有丰富叙述性文本和上下文相关图像的多模态故事的新方法。提出了多模态注意力汇聚机制,以高效生成长度大于训练时使用的序列长度的长故事。引入了StoryStream,这是

文章图片
#AIGC
多任务多模态全统一!港科大&快手可灵等最新UnityVideo:生成、理解、控制多项SOTA!

UnityVideo,这是一个在单一 Diffusion Transformer 中对多种视觉模态和任务进行建模的统一框架。通过利用模态自适应学习,UnityVideo 实现了 RGB 视频与辅助模态(深度、光流、分割、骨骼和 DensePose)之间的双向学习,从而在两类任务上都实现了相互增强。本文的实验展示了其在不同基准上的最先进性能,以及对未见模态组合的强大零样本泛化能力。

文章图片
#AIGC#人工智能
视频编辑最新SOTA!港中文&Adobe等发布统一视频生成传播框架——GenProp

解决的问题当前大规模视频生成模型在处理各种视频编辑任务时,往往聚焦于单一任务(如视频修复、外观编辑、对象插入等),而传统的视频传播方法(如光流或深度传播)易受错误积累影响,缺乏鲁棒性和泛化能力。现有方法还需要密集标注或专门针对任务进行重新训练,流程复杂且效率较低。提出的方案框架设计:提出了一个统一的视频生成传播框架——GenProp。使用选择性内容编码器(Selective Content Enc

文章图片
#视频生成
LLM和自动驾驶强强联合 | DriveDreamer-2:自动驾驶定制视频生成世界模型!

近年来,自动驾驶的世界模型引起了行业和学术界的广泛关注。由于其出色的预测能力,自动驾驶世界模型有助于生成各种各样的驾驶视频,甚至包括长尾场景。生成的驾驶视频可以用于增强各种驾驶感知方法的训练,对自动驾驶的实际应用非常有益。自动驾驶中的世界建模面临着巨大的挑战,这是由于其固有的复杂性和大量的采样空间所致。早期的方法通过将世界建模纳入鸟瞰图(BEV)语义分割空间中来缓解这些问题。然而,这些方法主要是在

文章图片
#自动驾驶#人工智能#AIGC +3
Amazing!精准可控新视角视频生成+场景级3D生成!北大&港中文&腾讯等开源ViewCrafter

Sora等在大规模真实场景视频数据集上训练得到视频扩散模型能够学到对3D物理世界的深入理解,从而使其从单张图像或文本提示中生成复合物理规律和现实世界规则的视频内容。然而,由于它们缺乏场景的底层3D信息,因此难以在视频生成过程中实现精确的相机视角控制。

文章图片
#视频生成
多模态与生成正迈向终极大一统!阿里最新3万字长文梳理统一的多模态理解和生成模型

本文综述了统一多模态理解与生成模型的最新进展、挑战与机遇。首先,文章介绍了多模态理解与文本生成图像模型的基础概念,并梳理了现有统一模型的三大架构范式:基于扩散的架构、基于自回归的架构,以及融合自回归与扩散机制的混合架构。随后,文章整理了适配统一模型的数据集与评测基准,为后续研究提供资源支持。文章还探讨了该领域面临的核心挑战,包括分词策略、跨模态注意力机制与数据问题。

文章图片
    共 139 条
  • 1
  • 2
  • 3
  • 14
  • 请选择