logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI自己当导演?KlingAvatar 2.0“联合推理”黑科技:让数字人不仅会演,更懂剧本!新SOTA!

《KlingAvatar2.0:多模态协同推理的数字人生成框架》提出了一种创新的时空级联架构,通过多专家协同导演实现高分辨率、长时长数字人视频合成。该系统采用两阶段生成流程:首先生成低分辨率全局"蓝图",再通过时空上采样细化高分辨率子片段。创新性地引入音频/视觉/文本三位专家组成的协同推理导演模块,通过多轮对话解决多模态指令冲突,并新增"负面导演"优化生成质

文章图片
#视频生成#AIGC
一个人就是一支整编剧组!首个“统一导演”模型发布:字节UniMAGE,让脑洞原地变大片

UniMAGE:统一导演模型实现连贯音视频生成 摘要:本文提出UniMAGE,一个创新的统一导演模型,通过整合剧本创作与关键帧生成来解决现有AI视频创作系统叙事断裂的问题。该模型采用混合Transformer架构,创新性地设计了"先交错后解耦"的双阶段训练范式:交错概念学习阶段促进文本-图像的深度理解,解耦专家学习阶段则分离剧本与图像生成以增强灵活性。

文章图片
#视频生成
详解大规模基础模型中的幻觉问题(幻觉检测、缓解、任务、数据集和评估指标)

在大规模基础模型中,幻觉输出的生成是一个关键挑战,特别是在高风险应用中。这种倾向可能影响模型的可靠性和准确性。

文章图片
LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化

本文提出LongVie框架,针对可控长视频生成中的时序不一致性和视觉退化两大挑战进行了创新性解决。通过多模态控制机制(结合稠密深度图与稀疏关键点)、全局归一化和统一噪声初始化,显著提升了生成质量。实验表明,LongVie在1分钟以上视频生成中达到SOTA性能,并构建了包含100个1分钟视频的LongVGenBench评测基准。该工作为超长视频生成提供了新思路和评估标准。

文章图片
#视频生成#AIGC
北航&美团等最新EditThinker:给AI修图装上“大脑”,Flux、OmniGen2瞬间智商暴涨!

EditThinker,使图像编辑模型能够在编辑时“思考”,解决了现有单轮方法中由于固有的随机性和缺乏深思熟虑而导致的指令遵循能力有限的问题。本文的框架通过模拟迭代的“批判-改进-重复”循环来模仿人类的认知过程,从而实现自我纠正的图像编辑。通过将 EditThinker 训练为一个统一的多模态大语言模型 (MLLM),它能够联合生成批判分数、详细推理过程和改进后的指令。

文章图片
只需一步!上交&哈佛提出FluxSR:首个基于12B+大模型的单步扩散真实世界超分模型

多步扩散模型的计算成本高,限制了其在真实世界图像超分辨率(Real-ISR)任务中的应用。现有的单步扩散方法受教师模型性能限制,低质量的教师模型会导致生成的图像出现伪影。大模型的训练成本和内存消耗高,尤其在蒸馏过程中,使用额外教师模型会显著增加计算负担。

文章图片
多模态理解生成“大一统”!Meta&港大等重磅发布Tuna:统一视觉表征,性能碾压Show-o2

Tuna是一个创新的统一多模态模型,通过独特的统一视觉表示设计,在一个框架内实现了图像/视频理解、生成和编辑功能。该模型将VAE编码器与表示编码器直接连接,形成兼顾语义理解和细节生成的统一表示空间。实验表明,Tuna在多个基准测试中达到SOTA水平,性能优于现有解耦模型和统一模型。消融研究验证了其统一表示设计的优越性,证明了理解和生成任务间的协同效应。Tuna的成功为开发更高效的多模态AI系统提供

文章图片
#视频生成#AIGC
颠覆影视圈!全球首个开源「无限时长」电影生成模型炸场:昆仑万维把视频生成卷到新时代

Prompt Adherence(提示词遵循):现有通用多模态大语言模型(MLLM)难以理解电影语法(如镜头构图、演员表情、摄像机运动),导致生成的视频不符合专业电影风格。Motion Dynamics(运动动态):现有方法在优化时往往牺牲运动质量以提升视觉质量,导致动态效果不足。Video Duration(视频时长):现有模型受限于分辨率优化,通常只能生成5-10秒的短视频,难以实现长视频合成

文章图片
#视频生成
NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”

Wan-Move,一个用于视频生成中精确的运动控制的简单且可扩展的框架。通过点轨迹表示运动,并通过空间映射将其传输到潜在坐标,无需额外的运动编码器。通过隐空间特征复制将轨迹引导注入第一帧条件特征,在不改变架构的情况下实现了有效的运动控制。

文章图片
#视频生成#AIGC
告别文字想象!快手可灵团队开源VANS:实现从“语言描述”到“动态演示”跨越,多项SOTA

本文提出视频化下一代事件预测(VNEP)新任务,将事件推理从文本描述升级为动态视频演示。针对该任务的多模态协同挑战,作者设计了VANS框架:通过联合分组相对策略优化(Joint-GRPO)算法,分阶段协调视觉语言模型(VLM)和视频扩散模型(VDM)。VLM首先生成视觉友好的事件描述,VDM随后生成语义准确且视觉连贯的预测视频。为支持模型训练,构建了包含10万样本的VANS-Data-100K数据

文章图片
#视频生成#AIGC
    共 106 条
  • 1
  • 2
  • 3
  • 11
  • 请选择