登录社区云,与社区用户共同成长
邀请您加入社区
Phantom 是字节跳动推出的一种统一视频生成框架,能够处理单主体和多主体参考的视频生成任务。:2025 年 4 月 20 日,Phantom 框架被适配到 Wan2.1 视频生成模型中,发布了 Phantom-Wan 的推理代码和检查点,包括 Phantom-Wan 1.3B 的推理代码和检查点、Phantom-Wan 14B 的检查点以及 Phantom-Wan 的训练代码。在单参考主体到视
伊利诺伊大学与谷歌:AI如何让视频合成像"拆积木再拼装"一样自然
Tuna是一个创新的统一多模态模型,通过独特的统一视觉表示设计,在一个框架内实现了图像/视频理解、生成和编辑功能。该模型将VAE编码器与表示编码器直接连接,形成兼顾语义理解和细节生成的统一表示空间。实验表明,Tuna在多个基准测试中达到SOTA水平,性能优于现有解耦模型和统一模型。消融研究验证了其统一表示设计的优越性,证明了理解和生成任务间的协同效应。Tuna的成功为开发更高效的多模态AI系统提供
LongCat-Video 基于 136 亿参数的视频生成大模型,同时支持文字转视频、图片转视频和视频续写,让创意能够持续往前推进。它不是只会做几秒炫酷短片,而是从训练阶段就融入了长时序逻辑,让光影不飘、角色不丢、剧情不突兀,几分钟的视频也能顺畅连贯。效率方面也非常能打:720p、30fps 的长视频几分钟即可生成,再配合强化学习不断提升文本对齐、画质与动作一致性,让开源模型也能拥有行业级竞争力。
针对您的环境,最简单、最稳妥的部署的方法是使用官方提供的。这种方式自带 Python 环境,不需要您自己在系统中配置复杂的 Python 或 CUDA 环境,解压即用。
在图生视频任务中,LongCat-Video 在视觉质量上值得关注,得分领先 Wan2.2 等其他模型,表明其在生成画面质量方面的突出优势。在这一框架中,视频生成模型通过其生成过程,逐步压缩并学习几何、语义、物理等多种知识形态,将示例图片上传后,输入 Prompt,在「Advanced Options」中可以对生成视频的负面提示词、分辨率、生成过程的随机性起点等参数进行更多设置,以实现更理想的生成
腾讯混元大模型团队视频生成模型在 AtomGit 正式开源。这款基于 Diffusion Transformer(DiT)架构、参数仅 8.3B 的轻量化模型,凭借和,以极低的门槛带给开发者旗舰模型的体验。
模型结合动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可精准解析文本、表格、公式、图表等复杂文档结构,同时支持 109 种语言。依托高效量化技术与推理优化策略,SmolLM3-3B 能在资源受限的设备上稳定运行,并在多项任务中实现接近更大模型的表现,非常适合本地化部署与移动端 AI 应用落地。DeePMD-kit_Example 是 DeePMD-kit 提供的官方示例集,涵盖多
3月13日,Open-Sora 2.0全面开源,仅需224张GPU、20万美元训练成本,11B参数模型,就让商业级AI视频生成的门槛从百万预算骤降至20万,性能更是直逼Sora:VBench评分差距仅0.69%——技术民主化的浪潮下,“拍大片”正从资源垄断的游戏,变成全民参与的创意狂欢。
【摘要】聚焦二次元漫剧生产,深度横评Sora2、可灵、即梦三大主流AI视频模型。通过系统性列表化对照,精细剖析其在角色一致性、镜头控制与生产效率上的差异,并提供一套可落地的技术选型与工作流范式。
【摘要】探讨AIGC漫剧视频生成工具的选型框架与评测体系。聚焦于生产目标、技术指标、成本控制与工作流整合,为实现风格稳定与规模化产能提供决策依据。
清华突破:AI实现4D场景镜头运动自主设计
摘要:谢赛宁团队提出新型RAE(表示自动编码器)替代传统VAE,显著提升图像生成质量与效率。RAE采用预训练语义模型(如DINO)作为编码器,相比VAE具有三大优势:1)保留全局语义信息;2)支持更高维度表示;3)计算速度提升3-6倍。配合改进的DiT模型(调整网络宽度、噪声策略等),在ImageNet测试中取得FID 1.13的突破性成绩,训练速度较传统方法快47倍。该技术通过"语义优
滑铁卢大学与快手UniVideo:AI实现视频全能处理
OpenAI Sora与谷歌Veo 3 AI视频生成对比测试结果出炉
StreamingT2V提出了一种突破性的文本到长视频生成方法,通过条件注意力模块(CAM)实现平滑片段过渡,外观保持模块(APM)维持长期场景一致性,以及随机混合策略消除增强过程中的拼接痕迹。该方法能够生成长达2分钟的高质量视频,在运动丰富性和一致性方面显著优于现有技术,定量指标MAWE降低28%。这种模块化设计结合了短/长期记忆机制,为AI视频创作开辟了新可能,可应用于广告、教育、娱乐等多个领
CogVideo由清华大学计算机系THUDM团队开发,基于PyTorch构建,利用深度学习技术,可帮助开发者和研究者快速实现对视频数据的智能分析,包括视频分类、目标检测、动作识别等多种任务。CogVideo包含多种经过大规模数据集预训练的模型,如ViT(Vision Transformer)和TSM(Temporal Shift Module),能有效提取时间及空间特征。此外,还提供数据集处理、模
33搜帧是一个使用AI技术构建的视频帧画面搜索引擎,33搜帧能搜索到视频素材中的每一帧画面,这个功能可以帮助你快速找到文案关联的素材。只要你上传文案或者录音,33搜帧就可以基于它强大的AI画面匹配能力,来帮你自动合成一个包含语音、画面和字幕的完整视频。首先从语音中提取文字,根据文字搜索视频,做电影解说确实是神器。使用关键词搜索视频很强大,居然日漫都能搜到。33搜帧,是一个能根据语音生成视频的网站,
Ovi是一个类似veo-3的视频+音频生成模型,能够同时从文本或文本+图像输入生成视频和音频内容。对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)我们欢迎各种类型的合作!无论您有反馈、想要贡献或有任何问题,请随时联系我们。更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)如果您发现这个项目对您的研究有用,请考虑引用我们的论文。:如有任何问题或反馈,请联系
3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。进入 Demo 运行页面后,在文本框内输入相关文字描述,并上传图片以及音频,根据需求调整相关参数,点击「Generate Video」即可生成视频。然而,当前多数模型大多依赖单一模态输入。HuMo 提出「协同多模态条件生成」的理念,将文本、参考图像与音
本数据集基于 NWChem 高性能计算化学软件生成,涵盖生物分子、纳米结构与固态材料的量子及经典混合计算数据,包含基态与激发态性质,采用高斯基函数与平面波两种计算方法,具备从单节点到数千处理器的高并行扩展能力,并支持分子性质与相对论效应的分析。Wan2.2-Animate-14B 同时支持动作模仿和角色扮演两种模式,能基于表演者的视频,精确复制面部表情和动作,生成高度逼真的角色动画视频。此外,Mi
随着人工智能技术的不断进步,视频合成领域正迎来前所未有的发展机遇。本文介绍近期两项视频生成方向的创新技术:PAB(Pyramid Attention Broadcast)和ExVideo。这两篇文章合在一起主要介绍如何提升视频生成的速度与长度(当前视频生成主要瓶颈方向之一),从而实现更加高效和多样化的视频内容创作。
国内一个由北大和Rabbitpre AI发起的Open-Sora Plan的项目,旨在重现 OpenAI 的视频生成模型Sora。技术框架
作为最先进和沉浸式的讲故事模型套件,Movie Gen具备四种核心功能:视频生成、个性化视频生成、精确视频编辑和音频生成。这些模型的训练采用了经过授权和公开可用的数据集组合。虽然研究论文中详细阐述了技术细节,但本篇博文将重点分享每种功能的出色表现。后续会补充该论文的技术细节,感兴趣的小伙伴可以留意下。
它的AI写作包括有文章、视频脚本、头脑风暴等多个分类,我们可以输入视频主题以及细节要求,点击生成之后可以在右侧看到详细的视频镜头以及拍摄内容。Runway是一款功能强大的AI视频生成软件,支持文生视频、图生视频和视频再生视频。Runway的特色在于其生成的视频动态效果丰富,能够模拟真实的物理规律,如飘动的气球、飘散的烟雾等,使得视频内容更加生动。从文字到视频的自动化转换,再到数字人讲解视频的生成,
PhysGen:基于刚体物理学的图像到视频生成
两天前, 国内 AI 独角兽MiniMax重磅发布的视频生成模型video-01,因其能够生成超逼真的人类视频,特别是在手部动作的精准模拟方面表现卓越,迅速引起了业界的广泛关注。这款 AI 工具的问世标志着生成式 AI 领域的又一次重要突破。但它到底表现如何呢?
MotionCtrl是一个统一和灵活的视频生成运动控制器可以独立控制相机运动和物体运动,解决了以往方法中要么只关注一种类型的运动,要么无法区分两者之间的差异性。MotionCtrl提供了三个优势:(1)它可以有效且独立地控制相机和物体运动,实现细粒度调整和多样化的运动组合(2)它使用相机姿态和轨迹作为运动条件,这不会影响物体的视觉外观(3)它是一个相对通用的模型,可以适应各种相机姿态和轨迹,无需进
Open-Sora是一个开源的视频生成模型,旨在生成高保真度的视频内容。它支持广泛的视觉生成任务,包括文本到图像、文本到视频和图像到视频的生成。该模型利用先进的深度学习架构和训练/推理技术,能够生成长达15秒、分辨率达720p、任意宽高比的灵活视频。其中的关键创新包括空间-时间扩散变换器(STDiT)和高度压缩的3D自编码器。通过这个项目,研究人员希望促进AI内容创作领域的创新、创造力和包容性。开
NVIDIA推出ChronoEdit:让AI图像编辑拥有物理常识的革命性技术
在文生视频模型中,一共有text_encoder(文本embed)、vae(图像编解码)、model(dit模型,扩散模型)三个类,与文生视频模型对比,图生视频仅仅是多了一个CLIPModel与文生视频模型对比,图生视频仅仅是多了一个CLIPModel。与图生视频的结构是一样的。
「HuMo-1.7B:多模态视频生成框架」现已上线 HyperAI超神经官网(hyper.ai)的「教程」板块,不妨来试一下,当你给出更充足的信息,模型能产出令你满意的视频吗?
南洋理工大学突破:AI实现实时流式视频生成
测试阶段,采样得到的 token map 会借助 VQVAE 进行连续化、插值求和、解码,从而得到最终生成的图像。, rk),分辨率从小到大。随后每一步,VAR 都基于历史所有的 token map 去预测下一个更大尺度的 token map。开源模型:https://huggingface.co/FoundationVision/var。开源代码:https://github.com/Found
MCTS 中文文本简化数据集* Big-Math 强化学习数学数据集* HAR 15 种人体动作识别数据集* DexGraspVLA 机器人抓握数据集* Fortune Telling 中文风水占卜数据集* QwQ-32B* 一键部署 YOLOv12* 一键部署 Janus-Pro-7B* Wan 2.1 文/图生视频双杀 Demo。
在短视频创作日益普及的当下,手动制作视频不仅耗时,还需掌握剪辑、文案撰写等多种技能。而 MoneyPrinterTurbo 作为一款开源全自动短视频生成工具,只需输入主题或关键词,即可自动完成文案生成、素材匹配、字幕制作、BGM搭配,并合成高清短视频。本文将从项目介绍、特色、部署安装到实际使用,为你提供一份完整教程,帮助你快速上手这款工具。
三维场景生成旨在为沉浸式媒体、机器人技术、自动驾驶和具身人工智能等应用合成空间结构化、语义丰富且逼真的环境。早期基于程序规则的方法虽然提供了可扩展性,但多样性有限。近年来,深度生成模型(如GANs、扩散模型)和三维表示(如NeRF、三维高斯分布)的进步使得学习真实世界场景分布成为可能,提高了保真度、多样性和视角一致性。最近的进展如扩散模型通过将生成问题重新定义为图像或视频合成问题,弥合了三维场景生
AIGC文生视频的调研
视频生成
——视频生成
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net