
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
《KlingAvatar2.0:多模态协同推理的数字人生成框架》提出了一种创新的时空级联架构,通过多专家协同导演实现高分辨率、长时长数字人视频合成。该系统采用两阶段生成流程:首先生成低分辨率全局"蓝图",再通过时空上采样细化高分辨率子片段。创新性地引入音频/视觉/文本三位专家组成的协同推理导演模块,通过多轮对话解决多模态指令冲突,并新增"负面导演"优化生成质

UniMAGE:统一导演模型实现连贯音视频生成 摘要:本文提出UniMAGE,一个创新的统一导演模型,通过整合剧本创作与关键帧生成来解决现有AI视频创作系统叙事断裂的问题。该模型采用混合Transformer架构,创新性地设计了"先交错后解耦"的双阶段训练范式:交错概念学习阶段促进文本-图像的深度理解,解耦专家学习阶段则分离剧本与图像生成以增强灵活性。

在大规模基础模型中,幻觉输出的生成是一个关键挑战,特别是在高风险应用中。这种倾向可能影响模型的可靠性和准确性。

本文提出LongVie框架,针对可控长视频生成中的时序不一致性和视觉退化两大挑战进行了创新性解决。通过多模态控制机制(结合稠密深度图与稀疏关键点)、全局归一化和统一噪声初始化,显著提升了生成质量。实验表明,LongVie在1分钟以上视频生成中达到SOTA性能,并构建了包含100个1分钟视频的LongVGenBench评测基准。该工作为超长视频生成提供了新思路和评估标准。

EditThinker,使图像编辑模型能够在编辑时“思考”,解决了现有单轮方法中由于固有的随机性和缺乏深思熟虑而导致的指令遵循能力有限的问题。本文的框架通过模拟迭代的“批判-改进-重复”循环来模仿人类的认知过程,从而实现自我纠正的图像编辑。通过将 EditThinker 训练为一个统一的多模态大语言模型 (MLLM),它能够联合生成批判分数、详细推理过程和改进后的指令。

多步扩散模型的计算成本高,限制了其在真实世界图像超分辨率(Real-ISR)任务中的应用。现有的单步扩散方法受教师模型性能限制,低质量的教师模型会导致生成的图像出现伪影。大模型的训练成本和内存消耗高,尤其在蒸馏过程中,使用额外教师模型会显著增加计算负担。

Tuna是一个创新的统一多模态模型,通过独特的统一视觉表示设计,在一个框架内实现了图像/视频理解、生成和编辑功能。该模型将VAE编码器与表示编码器直接连接,形成兼顾语义理解和细节生成的统一表示空间。实验表明,Tuna在多个基准测试中达到SOTA水平,性能优于现有解耦模型和统一模型。消融研究验证了其统一表示设计的优越性,证明了理解和生成任务间的协同效应。Tuna的成功为开发更高效的多模态AI系统提供

Prompt Adherence(提示词遵循):现有通用多模态大语言模型(MLLM)难以理解电影语法(如镜头构图、演员表情、摄像机运动),导致生成的视频不符合专业电影风格。Motion Dynamics(运动动态):现有方法在优化时往往牺牲运动质量以提升视觉质量,导致动态效果不足。Video Duration(视频时长):现有模型受限于分辨率优化,通常只能生成5-10秒的短视频,难以实现长视频合成

Wan-Move,一个用于视频生成中精确的运动控制的简单且可扩展的框架。通过点轨迹表示运动,并通过空间映射将其传输到潜在坐标,无需额外的运动编码器。通过隐空间特征复制将轨迹引导注入第一帧条件特征,在不改变架构的情况下实现了有效的运动控制。

本文提出视频化下一代事件预测(VNEP)新任务,将事件推理从文本描述升级为动态视频演示。针对该任务的多模态协同挑战,作者设计了VANS框架:通过联合分组相对策略优化(Joint-GRPO)算法,分阶段协调视觉语言模型(VLM)和视频扩散模型(VDM)。VLM首先生成视觉友好的事件描述,VDM随后生成语义准确且视觉连贯的预测视频。为支持模型训练,构建了包含10万样本的VANS-Data-100K数据








