社区云

视频生成

LJ1147517021 来自魔乐社区

modelers.csdn.net · 2025-09-08 09:30:17

（论文速读）ByTheWay：无需训练即可提升文本生成视频质量

《ByTheWay：无训练提升文本生成视频质量新方法》针对当前T2V模型存在的结构不合理、时间不连贯和运动不足三大问题，提出了一种创新解决方案。研究团队通过分析时间注意力机制，发现不同解码块间注意力图差异与质量问题相关，其能量与运动幅度正相关。

#计算机视觉 #深度学习 #人工智能 +1

958 

33 
悟乙己来自魔乐社区

modelers.csdn.net · 2024-06-17 23:18:31

文生视频开源产品的一些调研（一）

AIGC文生视频的调研

#音视频 #人工智能 #AIGC +1

1917 

18 
Panesle 来自魔乐社区

modelers.csdn.net · 2025-05-14 10:15:12

文生视频LTX-Video-13B量化版： ltxv-13b-0.9.7-dev-GGUF

本文介绍了一个基于 Lightricks/LTXVideo 的 13b-0.9.7-dev 变体模型的 GGUF 格式转换版本，适用于 ComfyUI 平台。该模型为量化模型，保留了原模型的所有限制和许可条款。使用说明包括基于官方示例工作流操作，需确保 ComfyUI 更新至最新版本，并注意与其他组件的兼容性，如 T5 剪辑、Lora 和 Teacache 的使用限制。建议禁用 Teacache

#人工智能 #深度学习 #视频生成

390 

4 
overwhelmed# 来自魔乐社区

modelers.csdn.net · 2025-08-19 16:21:34

ComfyUI部署Wan2.2，开放API，文生视频与图生视频

开源了，5B模型具有文生视频和图生视频的能力。这里介绍通过ComfyUI部署wan2.2并开放API，通过url返回生成的视频。环境配置，api的worlflow配置文件获取，ComfyUI启动，配置url路径参考。

#视频生成

602 

3 
至顶科技来自 2048 AI社区

2048ai.net · 2025-09-22 21:15:02

Luma AI发布Ray3：内置推理能力的新一代电影级视频生成模型

Luma AI发布Ray3：内置推理能力的新一代电影级视频生成模型

#人工智能 #视频生成

456 

22 
沉迷单车的追风少年来自北京朝阳AI社区

devpress.csdn.net/aibjcy · 2025-09-20 21:09:36

FantasyHSI：Video-Generation-Centric 4D Human Synthesis In Any Scene through A Graph-based

设计了一种新颖的HSI框架，以视频生成和无配对数据的多智能体系统为中心，将复杂的交互过程建模为一个动态有向图，在此基础上构建了一个协作的多智能体系统。多智能体系统包括一个用于环境感知和高级路径规划的场景导航智能体，一个将远景目标分解为原子动作的规划智能体，和一个批评智能体，通过评估生成的动作与计划路径之间的偏差来建立闭环反馈机制，能够动态修正由生成模型的随机性引起的轨迹漂移，从而确保长期的逻辑一致

#人工智能 #视频生成 #AIGC +1

608 

14 
AI生成未来来自讯飞AI开发者社区

xfyun.csdn.net · 2025-04-11 23:26:45

一张照片，开口说话！阿里等最新音视频对齐技术FantasyTalking：打造超写实可控数字人!

阿里等发布FantasyTalking，通过单张照片+音频，实现与输入音频对应的、包含背景和上下文对象（而不仅限于肖像本身）的连贯全局运动，并能够构建精确对齐的唇部运动视频。

#视频生成 #音视频

1275 

25 
至顶AI实验室来自 2048 AI社区

2048ai.net · 2025-09-17 16:46:47

清华与快手联合推出VideoReward：让AI视频生成更懂人心的方法

清华与快手联合推出VideoReward：让AI视频生成更懂人心的方法

#人工智能 #视频生成

552 

21 
至顶头条来自 2048 AI社区

2048ai.net · 2025-09-17 16:35:56

机器人也能预测未来？上海AI实验室打造“会做梦“的机器人大脑

机器人也能预测未来？上海AI实验室打造"会做梦"的机器人大脑

#人工智能 #视频生成

865 

20 
selifecn 来自讯飞AI开发者社区

xfyun.csdn.net · 2024-10-18 11:23:52

根据语音生成视频33搜帧

33搜帧是一个使用AI技术构建的视频帧画面搜索引擎，33搜帧能搜索到视频素材中的每一帧画面，这个功能可以帮助你快速找到文案关联的素材。只要你上传文案或者录音，33搜帧就可以基于它强大的AI画面匹配能力，来帮你自动合成一个包含语音、画面和字幕的完整视频。首先从语音中提取文字，根据文字搜索视频，做电影解说确实是神器。使用关键词搜索视频很强大，居然日漫都能搜到。33搜帧，是一个能根据语音生成视频的网站，

#音视频 #人工智能 #视频生成

704 

8 
卍守正♡余生♝下半场℡ 来自讯飞AI开发者社区

xfyun.csdn.net · 2024-06-30 20:14:15

文生图图生视频文生视频语音生成虚拟人人物克隆语音克隆基本认知

文本生成图像模型通过自然语言描述生成对应的图像。通常使用生成对抗网络（GANs）或变分自动编码器（VAEs）等深度生成模型。从静态图像生成视频，通常需要预测图像的运动信息或利用生成对抗网络（GANs）。生成与目标人物相似的语音，通常需要收集目标人物的语音数据进行训练。通过文本描述生成视频，结合文本生成图像和图像生成视频的技术。生成虚拟人物的图像或动画，通常用于虚拟助手或娱乐领域。将文本转换为语音，

#视频生成

795 

3 
烤鸭的世界我们不懂来自 2048 AI社区

2048ai.net · 2025-09-09 07:45:00

通义万相2.2-图/文生视频深度体验：附源码

大家好，我是烤鸭：鲨疯了，最近陆续几个重磅开源，阿里云和openai陆续加入了战场，都是非商用显卡可以跑的，太炸裂了。文本模型：openai_gpt-oss 文本生成，文生图：Qwen-Image文生图，文/图生视频：通义万相2.2-图生视频。今天重点体验一下通义万相2.2文/图生视频。

#transformer #人工智能 #视频生成

826 

7 
LJ1147517021 来自 2048 AI社区

2048ai.net · 2025-09-08 09:28:46

（论文速读）MVPortrait：文本驱动的多视角生动肖像动画技术

《MVPortrait：文本引导的多视图生动肖像动画》提出了一种创新性两阶段框架，通过FLAME 3D面部模型作为中间表示，实现文本驱动的多视角肖像动画生成。该系统采用解耦设计，分别训练运动和情感扩散模型，再通过多视图视频生成模型输出动画。实验表明，该方法在文本对齐、情感表达和多视角一致性上优于现有技术，且兼容文本、语音和视频多种驱动方式。该技术为虚拟主播、影视制作等领域提供了新的解决方案，代表了

#计算机视觉 #深度学习 #人工智能 +1

1115 

18 
AI生成未来来自 2048 AI社区

2048ai.net · 2025-09-08 07:56:13

AI试衣间实现360度全身自由！SpreeAI带来VirtualFittingRoom:让自拍秒变沉浸式换装秀

【摘要】VFR框架突破性地实现了从单张图片生成任意时长(720×1152分辨率，24FPS)的高质量虚拟试衣视频，解决了现有技术局限于静态图像或超短视频的痛点。该研究通过自回归分段生成策略，结合"锚视频"全局引导和"前缀条件"局部优化，在保持3D一致性的同时，创新性地实现了分钟级视频的平滑过渡与时间连贯性。实验表明，该方法在四个评估维度(服装/人体一致性、手

#视频生成

998 

12 
至顶头条来自 2048 AI社区

2048ai.net · 2025-09-05 22:21:40

清华北航等打造“Droplet3D“：从视频中学会3D创作的AI系统

清华北航等打造"Droplet3D"：从视频中学会3D创作的AI系统

#人工智能 #视频生成

609 

13 
至顶头条来自 2048 AI社区

2048ai.net · 2025-09-04 17:28:01

AI变身魔法师：伊利诺伊大学团队让你穿上任何衣服，跳出任何舞步

AI变身魔法师：伊利诺伊大学团队让你穿上任何衣服，跳出任何舞步

#人工智能 #视频生成

707 

8 
todoitbo 来自 2048 AI社区

2048ai.net · 2025-09-03 21:53:57

你只需输入一句话，MoneyPrinterTurbo直接给你输出一个视频

AI快速生成视频

#音视频 #视频生成

7447 

8 
至顶AI实验室来自 2048 AI社区

2048ai.net · 2025-08-28 21:43:55

滑铁卢大学发明神奇AI：仅凭声音就能生成开口说话的逼真视频

滑铁卢大学发明神奇AI：仅凭声音就能生成开口说话的逼真视频

#人工智能 #视频生成 #深度学习

958 

21 
chenwr_727 来自天启AI社区

tianqi.csdn.net · 2025-04-15 14:36:56

FinVizAI 一键生成股票与期货分析视频

FinVizAI 是一个集成了多种技术和工具的强大系统，专注于股票和期货数据的获取、分析、可视化以及视频生成。📈 数据获取：从权威数据源（如东方财富网）获取股票或期货的历史数据和最新资讯。📊 数据分析：计算技术指标（如均线、布林带、MACD等），整合最新市场资讯，结合大模型进行多维度深度解析，提供全面的市场洞察。🖼️ 图表绘制：使用 PyEcharts 和 Pyppeteer 绘制精美的 K

#视频生成

1087 

9 
LJ1147517021 来自杭州城市开发者社区

devpress.csdn.net/hangzhou · 2025-08-25 11:07:11

（论文速读）FloVD：光流遇见视频扩散模型，开启相机控制视频生成

FloVD：光流与视频扩散模型融合实现精准相机控制视频生成 CVPR 2025论文提出创新视频生成框架FloVD，通过光流技术解决现有视频扩散模型在相机控制方面的局限性。该框架采用两阶段处理流程：首先利用光流精确表示相机和物体运动，再基于流条件合成视频。核心创新包括：1）无需真实相机参数，直接从视频估计光流；2）背景光流编码3D相关性实现精确相机控制；3）独立物体运动合成模块生成自然前景运动。

#AIGC #人工智能 #计算机视觉 +1

1345 

26 
悟乙己来自 2048 AI社区

2048ai.net · 2025-08-22 17:59:53

通义万相：AI生视频提示词生成秘籍/指南

通义万相：AI生视频提示词生成秘籍/指南

#人工智能 #视频生成

3103 

21 
OpenBayes 来自天启AI社区

tianqi.csdn.net · 2025-06-26 14:00:43

OpenBayes 一周速览丨Nanonets-OCR-s深度语义理解，精准结构化转换；HLE人类问题推理基准上线，含2.5k题目，助力封闭式评估体系构建

DeepSeek-R1-0528-Qwen3-8B 参数量为 80 亿，通过将 DeepSeek-R1-0528 的复杂推理能力蒸馏到较小的 Qwen3-8B 基座模型上，融合了 Qwen3 的多语言能力和 DeepSeek-R1 的推理优化，性能媲美 GPT-4，支持单卡高效部署，是学术与企业应用的理想选择。Nanonets-OCR-s 能识别文档中的多种元素，比如数学公式、图片、签名、水印、复

#人工智能 #视频生成

1121 

19 
代号。。。。。。。来自天启AI社区

tianqi.csdn.net · 2025-06-12 21:56:41

Seedance：字节发布视频生成基础模型新SOTA，能力全面提升

Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型，旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成，实现了跨多样化场景的全面学习；采用高效的架构设计，支持多镜头生成以及文本到视频和图像到视频任务的联合学习；通过细粒度监督微调和多维度奖励机制的强化学习，显著提升了模型性能；并借助多阶段蒸馏策略和系统级优化，实现了 10

#人工智能 #计算机视觉 #视频生成 +3

1677 

21 
阿里云大数据AI技术来自 2048 AI社区

2048ai.net · 2025-08-19 14:40:55

PAIFuser：面向图像视频的训练推理加速框架

阿里云 PAI 团队推出专为视频生成任务设计的 PAIFuser 框架。针对扩散模型（Diffusion Models），尤其是 DiT（Diffusion Transformer）架构，PAIFuser 通过高性能一体化训练与推理加速框架，有效解决高计算复杂度、显存消耗大、实时性不足等问题。

#人工智能 #视频生成

713 

7 
LJ1147517021 来自 2048 AI社区

2048ai.net · 2025-08-18 13:27:09

（论文速读）Text2Video-Zero: 零成本文本到视频生成

《Text-to-Image Diffusion Models are Zero-Shot Video Generators》提出了一种无需训练的零样本视频生成方法。该方法通过改进现有文本-图像模型（如Stable Diffusion），引入运动动力学保持场景一致性，并创新性地采用跨帧注意力机制保留前景对象特征。实验表明，这种零样本方法在质量和一致性上媲美甚至超越需要大规模训练的传统视频生成模型。

#人工智能 #深度学习 #计算机视觉 +1

1139 

29 
HyperAI超神经来自 2048 AI社区

2048ai.net · 2025-08-04 17:15:02

ACL 25最佳论文！斯坦福大学发布差异感知基准数据集，构建差异感知公平；Self Forcing实现亚秒级延迟的实时流视频生成

为弥合这一差距，本文提出了代理强化策略优化（ARPO），这是一种专为训练多轮 LLM 基础代理而设计的新颖代理强化学习算法，仅需现有方法一半的工具使用预算即可实现性能提升，为将基于 LLM 的代理与实时动态环境对齐提供了一种可扩展的解决方案。该模型是 Qwen3-30B-A3B 的非思考模式的更新版本，亮点在于仅激活 30 亿（3B）参数就能展现出与谷歌的 Gemini 2.5-Flash（非思考

#人工智能 #深度学习 #机器学习 +1

935 

25 
HyperAI超神经来自 2048 AI社区

2048ai.net · 2025-08-01 13:53:34

在线教程丨全球首个 MoE 视频生成模型！阿里 Wan2.2 开源，消费级显卡也能跑出电影级 AI 视频

近期，阿里巴巴旗下通义万相实验室开源了先进 AI 视频生成模型 Wan2.2，首次引入混合专家（MoE）架构，有效提升生成质量和计算效率，同时首创电影级美学控制系统，能精准控制光影、色彩、构图等美学效果。

#开源 #视频生成

883 

5 
AI生成未来来自 DAMO开发者矩阵

damodev.csdn.net · 2024-10-22 08:21:29

阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源！

值得注意的是，它可以生成符合指定轨迹的高质量视频，最高可达204帧，分辨率为720p。从GitHub 上的 README 文件来看，由于阿里目前的商业使用计划，当前开放的是文生视频版本的Tora。未来，阿里团队计划推出 ModelScope 的试用 demo、训练代码以及完整版本的 Tora，以满足更多用户的需求，这无疑将推动文生视频技术的进一步发展。尤其值得注意的是，当文本提示中的对象与预设轨迹

#视频生成

720 

3 
Kobaayyy 来自 DAMO开发者矩阵

damodev.csdn.net · 2024-07-04 20:53:10

ECCV2024｜AIGC(图像生成，视频生成，3D生成等)相关论文汇总（附论文链接/开源代码）【持续更新】

整理汇总下2024年ECCV AIGC相关的论文和代码，具体如下

#AIGC #视频生成

4541 

20 
deardao 来自讯飞AI开发者社区

xfyun.csdn.net · 2024-04-27 18:02:57

通用视觉多模态大模型一统理解/生成/分割/编辑

一方面，研究人员尝试深化MLLMs对视觉的理解，从粗略的实例级理解过渡到对图像的像素级细粒度理解，从而实现视觉区域定位（Regional Grounding）能力，如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。部分研究已经开始研究让MLLMs不仅理解输入视觉信号，还能支持生成输出视觉内容。Vitron作为一个统一的像素级视觉多模态大语言模型，实现了从低层次到高层次的视觉

#视频生成

1076 

14 
AI生成未来来自 DAMO开发者矩阵

damodev.csdn.net · 2025-02-04 09:49:33

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源

在单目深度估计中表现出色，但在视频应用中存在时间不一致性的问题，限制了其实用性。现有方法虽然尝试解决这一问题，但仅适用于短视频，并在质量与计算效率之间存在权衡。

#视频生成 #AIGC

1791 

11 
Bubbliiiing 来自 2048 AI社区

2048ai.net · 2024-06-05 11:10:40

AIGC专栏11——EasyAnimateV2结构详解与Lora训练最大支持768x768 144帧视频生成

研究了好长时间的文生视频，EasyAnimate到了V2版本，我们将vae修改成了magvit，同时支持图片和视频的训练与预测，另外还引入了U-vit提高训练的稳定性并加快收敛。现在EasyAnimate最大支持768x768144帧的视频生成，FPS为24，最长6秒。本文主要进行EasyAnimateV2的算法详解，并且介绍一下如何通过EasyAnimate训练自己的Lora。

#AIGC #视频生成 #深度学习

4882 

16 
算家云来自 2048 AI社区

2048ai.net · 2025-01-16 18:33:22

AI神器Vidu 2.0 正式上线，10 秒即可出片，快到火爆外网！

最近，一个国产AI神器火到外网了，火爆的原因，竟是生成视频的速度太快，有网友甚至表示这是最快的视频生成AI。这正是生数科技在1月15日发布的最新的大模型 Vidu 2.0。Vidu 2.0究竟有多快呢？就让小编带大家一起体验一下吧视频生成过程刚才小编展示的案例，是一个时长为 4 秒、分辨率为 512p 的图生视频；虽然官方说法是“最快 10 秒”，但实测下来不到10秒就能生成一个4秒的短视频。不仅

#人工智能 #视频生成

2360 

5 
Struart_R 来自 2048 AI社区

2048ai.net · 2025-01-17 14:56:29

StyleGaussian: Instant 3D Style Transferwith Gaussian Splatting 论文解读

提出了StyleGaussian，一种新的3D风格化迁移技术，允许每秒10fps的速度，将任何风格即时传输到3D场景中。利用3DGS执行风格迁移，不会影响实时渲染能力和多视图一致性。（1）提出了StyleGaussian，一种新颖的三维风格化迁移手段。（2）设计了一种有效的特征渲染策略，可以在渲染高维特征中，将学习到的特征嵌入到冲减的三维高斯特征中。（3）设计了一个基于KNN的3D CNN，可以在

#计算机视觉 #视频生成 #人工智能 +1

1498 

13 
杀生丸学AI 来自 2048 AI社区

2048ai.net · 2024-05-08 23:15:46

【valse 2024】会议内容汇总（持续更新）

正在更新中，需要具体课件可私信

#计算机视觉 #AIGC #视频生成

2904 

27 
阿里云大数据AI技术来自 MCP技术社区

mcp.csdn.net · 2024-12-04 09:38:16

EasyAnimateV5 视频生成大模型原理详解与模型使用

EasyAnimate 是阿里云推出的基于 DiT 的高质量长视频生成框架，具备视频预处理、VAE 训练、DiT 训练、LoRA 训练、模型推理与评估等功能。通过少量图片进行 LoRA 微调，实现视频风格转换，增强系统扩展性和完整性。

#人工智能 #阿里云 #视频生成

2082 

23 
司南OpenCompass 来自 2048 AI社区

2048ai.net · 2025-02-27 14:23:51

视频生成模型权威评测基准VBench上线司南评测集社区

VBench 不仅包含了 16 个分层和解耦的评测维度，确保了评估的全面性和细致度，还通过贴近人类感知的评测方法，提高了评估结果的真实性和可靠性。最新发布的 VBench++ 支持更广泛的视频生成任务，包括文本生成视频和图像生成视频，并配有一套自适应的图像套件，以便在不同的设置下进行公平评估。，榜单内容多次被知名视频模型厂商、头部科技媒体引用，能否在 VBench 榜单上名列前茅，已成为衡量视频生

#人工智能 #视频生成

1473 

18 
Bubbliiiing 来自 2048 AI社区

2048ai.net · 2024-07-25 00:12:19

AIGC专栏14——ComfyUI秋叶包+EasyAnimate 本地快速拉起

最近给EasyAnimateV3写了ComfyUI的工作流，以方便别人测试。不过一点一点安装环境再拉起服务有点麻烦，在Windows上用秋叶包比较简单，写个教程如何结合ComfyUI秋叶包+EasyAnimate 本地快速拉起。在人工智能艺术创作的领域里，Stable Diffusion 凭借其开放源代码的特性，吸引了众多开发者与艺术家的目光，并且因为强大的社区支持而展现出强大的影响力。

#AIGC #transformer #视频生成

4996 

18 
sparkexpert 来自 2048 AI社区

2048ai.net · 2018-06-27 21:06:11

视频生成（Generating Videos with Scene Dynamics）实践

视频生成与视频识别是视频分析的两大任务，前者侧重于对下一帧的预测，而前者则侧重于视频内容的理解。由于视频是由一系列的视频帧组成的，那么如果有大量的视频数据，通过分析视频中动态场景的变化情况，就可以合成出一些小的动态场景视频。这也是论文Generating Videos with Scene Dynamics(http://carlvondrick.com/tinyvideo/paper.pdf)的

#视频生成

7187 

2 
Struart_R 来自 2048 AI社区

2048ai.net · 2024-12-22 00:09:16

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer 论文解读

该论文提出了一个基于Diffusion Transformer的大规模文本到视频模型CogVideoX，可以实现生成与文本对齐的10s连续视频，分辨率为768*1360 pixels。为了解决现有视频模型存在移动空间有限，持续时间短，难以生成基于文本的连续视频问题，该论文提出了几种方法。

#transformer #深度学习 #人工智能 +2

2475 

14 
杀生丸学AI 来自 2048 AI社区

2048ai.net · 2025-02-25 10:12:43

【三维分割】LangSplat: 3D Language Gaussian Splatting（CVPR 2024 highlight）

早期构建三维特征场的尝试包括蒸馏特征场[20]和神经特征融合场[43]。他们通过跨多个视图将LSeg [21]或DINO [4]特征提炼为一个NeRF，学习了3D一致特征。Shen等人[39]通过将clip征提取成NeRF，进一步提取特征场进行few-shot 语言引导的自动操作。[Panoptic lifting for 3d scene understandingwith neural f

#3d #人工智能 #视频生成 +1

1892 

23 
Leafing_ 来自 2048 AI社区

2048ai.net · 2025-01-30 16:57:49

【扩散模型Diffusion Model系列】1-一篇文章带你快速入门扩散模型Diffusion Model，个人入门学习路线+优质学习博客资料

一篇文章带你快速入门扩散模型

#AIGC #AI #视频生成 +3

1995 

31 
Struart_R 来自 2048 AI社区

2048ai.net · 2025-03-02 16:48:32

SimVS: Simulating World Inconsistencies for Robust View Synthesis 论文解读

该论文提出了一种名为SimVS的视频模型方法，旨在解决稀疏多视角图像捕捉中因动态变化（光照变化、物体运动）导致的视图合成鲁棒性问题。动机：现有方法在动态场景下需要依赖静态假设信息（比如NeRF），而实际的应用中输入的图像存在动态干扰，导致重建质量下降，或者使用了很少的数据，最后重建结果出现残影或者几何错乱（如下图CAT3D近期的NVS模型都是从一组一致性的图像作为输入，场景几何形状和照明。

#人工智能 #深度学习 #计算机视觉 +2

739 

27 

标签介绍

视频生成

——视频生成

关于我们

联系我们（工作时间：8:30-22:00）

400-660-0108 kefu@csdn.net