DataSourceAI 个人主页

@DataSourceAI

DataSourceAI

2025-03-09 16:02:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

浙江大学提出DreamRenderer！多实例精准控制的图像生成神器！

图像条件生成方法，如深度和Canny条件方法，已在精确图像合成方面展现出卓越能力。然而，现有模型仍难以准确控制多个实例（或区域）的内容。即使是像FLUX和3DIS这样的先进模型也面临挑战，例如实例之间的属性泄漏，这限制了用户的控制能力。为解决这些问题，我们引入了DreamRenderer，这是一种基于FLUX模型的无训练方法。DreamRenderer使用户能够通过边界框或掩码控制每个实例的内容，

#人工智能 #深度学习

浙大联合上海AI Lab提出NAR！邻域自回归建模视觉生成！比DiT

视觉自回归模型通常遵循光栅顺序的“下一标记预测”范式，该范式忽略了视觉内容固有的空间和时间局部性。具体而言，与距离较远的视觉标记相比，视觉标记与其在空间或时间上相邻的标记之间的相关性明显更强。在本文中，我们提出了邻域自回归建模（Neighboring Autoregressive Modeling，NAR），这是一种新颖的范式，它将自回归视觉生成表述为一个渐进式的外部绘制过程，遵循从近到远的“下一

#人工智能 #深度学习 #算法

巴伊兰大学提出SISO颠覆传统！免训练单图生成新范式：质量/保真度/背景三指标全面碾压SOTA！

主体驱动的文本条件图像生成和编辑将提示条件的易用性与使用个性化元素创建视觉内容时提供的卓越视觉控制相结合。从广告到数字艺术，它对于创意表达至关重要，但当可用的个性化元素图像较少时，仍然是一项具有挑战性的任务。图2. 用于图像生成的SISO工作流程。SISO通过基于预训练的身份度量IR和DINO进行迭代优化来生成图像。每次迭代时更新添加的低秩自适应（LoRA，Low-Rank Adaptation）

#计算机视觉 #人工智能

浙大联合上海AI Lab提出Astrea！基于MoE的MLLM新框架！

基于专家混合（Mixture-of-Experts，MoE）架构的视觉语言模型（Vision-Language Models，VLMs）已成为多模态理解领域的关键范式，为整合视觉和语言信息提供了强大的框架。然而，任务的复杂性和多样性不断增加，在协调异构视觉专家之间的负载平衡方面带来了重大挑战，因为优化一个专家的性能往往会损害其他专家的能力。为了解决任务异构性和专家负载不平衡的问题，我们提出了阿斯特

#人工智能 #音视频 #AIGC +2

浙大提出MotionStreamer：连续因果潜在空间+自回归模型，流式运动生成误差直降80%！

流式运动生成旨在逐步合成人体运动，同时动态适应在线文本输入并保持语义连贯性。以流式方式生成逼真且多样的人体运动对于各种实时应用（如视频游戏、动画和机器人技术）至关重要。流式运动生成由于两个基本要求而面临重大挑战。首先，该框架必须在保持在线响应的同时逐步处理顺序到达的文本输入。其次，模型应能够通过有效地将历史信息与传入的文本条件相结合，连续合成表现出上下文一致性的运动序列，确保渐进式文本语义与跨长时

#回归 #数据挖掘 #人工智能 +1

震惊！东京大学提出ARTalk！语音驱动3D面部动画大突破！

语音驱动的3D面部动画旨在根据任意音频片段为3D头部模型生成逼真的嘴唇动作和面部表情。尽管现有的基于扩散的方法能够产生自然的动作，但其生成速度较慢，限制了其应用潜力。在本文中，我们介绍了一种新颖的自回归模型，该模型通过学习从语音到多尺度运动码本的映射，实现了高度同步的嘴唇动作、逼真的头部姿态和眨眼的实时生成。此外，我们的模型可以利用样本运动序列适应未见的说话风格，从而能够创建具有独特个人风格的3D

#3d #人工智能 #论文阅读 +2

太赞了！阿里通义Lab提出VACE！视频创作与编辑统一模型！

扩散变换器（Diffusion Transformer）在生成高质量图像和视频方面展现出了强大的能力和可扩展性。进一步追求生成和编辑任务的统一，在图像内容创作领域取得了显著进展。然而，由于对时间和空间动态一致性的内在要求，实现视频合成的统一方法仍然具有挑战性。我们推出了VACE，它使用户能够在一个集创作与编辑功能于一体的框架内执行视频任务。这些任务包括参考到视频生成、视频到视频编辑以及掩码视频到视

#音视频 #人工智能 #深度学习

ANU联合腾讯提出Motion Anything！可控多模态运动生成新框架！

条件运动生成在计算机视觉领域已得到广泛研究，但仍存在两个关键挑战。首先，尽管掩码自回归方法最近在性能上超越了基于扩散的方法，但现有的掩码模型缺乏一种机制，无法根据给定条件对动态帧和身体部位进行优先级排序。其次，现有的针对不同条件模态的方法往往无法有效整合多种模态，限制了生成运动的可控性和连贯性。为应对这些挑战，我们提出了“Motion Anything”，这是一个多模态运动生成框架，引入了基于注意

#人工智能 #深度学习

浙江大学提出V²Edit！视频与3D场景编辑的免训练革命！

本文介绍了编辑，这是一种用于指令引导的视频和3D场景编辑的新型免训练框架。为解决平衡原始内容保留与编辑任务完成这一关键挑战，我们的方法采用了一种渐进策略，将复杂的编辑任务分解为一系列更简单的子任务。每个子任务通过三个关键的协同机制进行控制：初始噪声、每个去噪步骤添加的噪声以及文本提示与视频内容之间的交叉注意力图。这确保了在有效应用所需编辑的同时，能稳健地保留原始视频元素。

#3d #人工智能 #深度学习

微软提出I2V3D！3D引导的可控图像生成视频新框架！

我们提出了I2V3D，这是一个新颖的框架，利用3D几何引导和先进生成模型的优势，将静态图像精确地动画化为动态视频。我们的方法将计算机图形流水线的精确性（能够精确控制相机运动、物体旋转和角色动画等元素）与生成式的视觉保真度相结合，从粗略渲染的输入中生成高质量的视频。为了支持从任意初始点开始的动画和扩展序列，我们采用了由几何引导的两阶段生成过程：1)引导的关键帧生成，其中定制的图像扩散模型优化渲染的关

#3d #音视频 #AI +2

共 16 条

请选择