登录社区云,与社区用户共同成长
邀请您加入社区
《ByTheWay:无训练提升文本生成视频质量新方法》针对当前T2V模型存在的结构不合理、时间不连贯和运动不足三大问题,提出了一种创新解决方案。研究团队通过分析时间注意力机制,发现不同解码块间注意力图差异与质量问题相关,其能量与运动幅度正相关。
AIGC文生视频的调研
本文介绍了一个基于 Lightricks/LTXVideo 的 13b-0.9.7-dev 变体模型的 GGUF 格式转换版本,适用于 ComfyUI 平台。该模型为量化模型,保留了原模型的所有限制和许可条款。使用说明包括基于官方示例工作流操作,需确保 ComfyUI 更新至最新版本,并注意与其他组件的兼容性,如 T5 剪辑、Lora 和 Teacache 的使用限制。建议禁用 Teacache
开源了,5B模型具有文生视频和图生视频的能力。这里介绍通过ComfyUI部署wan2.2并开放API,通过url返回生成的视频。环境配置,api的worlflow配置文件获取,ComfyUI启动,配置url路径参考。
Luma AI发布Ray3:内置推理能力的新一代电影级视频生成模型
设计了一种新颖的HSI框架,以视频生成和无配对数据的多智能体系统为中心,将复杂的交互过程建模为一个动态有向图,在此基础上构建了一个协作的多智能体系统。多智能体系统包括一个用于环境感知和高级路径规划的场景导航智能体,一个将远景目标分解为原子动作的规划智能体,和一个批评智能体,通过评估生成的动作与计划路径之间的偏差来建立闭环反馈机制,能够动态修正由生成模型的随机性引起的轨迹漂移,从而确保长期的逻辑一致
阿里等发布FantasyTalking,通过单张照片+音频,实现与输入音频对应的、包含背景和上下文对象(而不仅限于肖像本身)的连贯全局运动,并能够构建精确对齐的唇部运动视频。
清华与快手联合推出VideoReward:让AI视频生成更懂人心的方法
机器人也能预测未来?上海AI实验室打造"会做梦"的机器人大脑
33搜帧是一个使用AI技术构建的视频帧画面搜索引擎,33搜帧能搜索到视频素材中的每一帧画面,这个功能可以帮助你快速找到文案关联的素材。只要你上传文案或者录音,33搜帧就可以基于它强大的AI画面匹配能力,来帮你自动合成一个包含语音、画面和字幕的完整视频。首先从语音中提取文字,根据文字搜索视频,做电影解说确实是神器。使用关键词搜索视频很强大,居然日漫都能搜到。33搜帧,是一个能根据语音生成视频的网站,
文本生成图像模型通过自然语言描述生成对应的图像。通常使用生成对抗网络(GANs)或变分自动编码器(VAEs)等深度生成模型。从静态图像生成视频,通常需要预测图像的运动信息或利用生成对抗网络(GANs)。生成与目标人物相似的语音,通常需要收集目标人物的语音数据进行训练。通过文本描述生成视频,结合文本生成图像和图像生成视频的技术。生成虚拟人物的图像或动画,通常用于虚拟助手或娱乐领域。将文本转换为语音,
大家好,我是烤鸭:鲨疯了,最近陆续几个重磅开源,阿里云和openai陆续加入了战场,都是非商用显卡可以跑的,太炸裂了。文本模型:openai_gpt-oss 文本生成,文生图:Qwen-Image文生图,文/图生视频: 通义万相2.2-图生视频。今天重点体验一下 通义万相2.2文/图生视频。
《MVPortrait:文本引导的多视图生动肖像动画》提出了一种创新性两阶段框架,通过FLAME 3D面部模型作为中间表示,实现文本驱动的多视角肖像动画生成。该系统采用解耦设计,分别训练运动和情感扩散模型,再通过多视图视频生成模型输出动画。实验表明,该方法在文本对齐、情感表达和多视角一致性上优于现有技术,且兼容文本、语音和视频多种驱动方式。该技术为虚拟主播、影视制作等领域提供了新的解决方案,代表了
【摘要】VFR框架突破性地实现了从单张图片生成任意时长(720×1152分辨率,24FPS)的高质量虚拟试衣视频,解决了现有技术局限于静态图像或超短视频的痛点。该研究通过自回归分段生成策略,结合"锚视频"全局引导和"前缀条件"局部优化,在保持3D一致性的同时,创新性地实现了分钟级视频的平滑过渡与时间连贯性。实验表明,该方法在四个评估维度(服装/人体一致性、手
清华北航等打造"Droplet3D":从视频中学会3D创作的AI系统
AI变身魔法师:伊利诺伊大学团队让你穿上任何衣服,跳出任何舞步
AI快速生成视频
滑铁卢大学发明神奇AI:仅凭声音就能生成开口说话的逼真视频
FinVizAI 是一个集成了多种技术和工具的强大系统,专注于股票和期货数据的获取、分析、可视化以及视频生成。📈 数据获取:从权威数据源(如东方财富网)获取股票或期货的历史数据和最新资讯。📊 数据分析:计算技术指标(如均线、布林带、MACD等),整合最新市场资讯,结合大模型进行多维度深度解析,提供全面的市场洞察。🖼️ 图表绘制:使用 PyEcharts 和 Pyppeteer 绘制精美的 K
FloVD:光流与视频扩散模型融合实现精准相机控制视频生成 CVPR 2025论文提出创新视频生成框架FloVD,通过光流技术解决现有视频扩散模型在相机控制方面的局限性。该框架采用两阶段处理流程:首先利用光流精确表示相机和物体运动,再基于流条件合成视频。核心创新包括:1)无需真实相机参数,直接从视频估计光流;2)背景光流编码3D相关性实现精确相机控制;3)独立物体运动合成模块生成自然前景运动。
通义万相:AI生视频提示词生成秘籍/指南
DeepSeek-R1-0528-Qwen3-8B 参数量为 80 亿,通过将 DeepSeek-R1-0528 的复杂推理能力蒸馏到较小的 Qwen3-8B 基座模型上,融合了 Qwen3 的多语言能力和 DeepSeek-R1 的推理优化,性能媲美 GPT-4,支持单卡高效部署,是学术与企业应用的理想选择。Nanonets-OCR-s 能识别文档中的多种元素,比如数学公式、图片、签名、水印、复
Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型,旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成,实现了跨多样化场景的全面学习;采用高效的架构设计,支持多镜头生成以及文本到视频和图像到视频任务的联合学习;通过细粒度监督微调和多维度奖励机制的强化学习,显著提升了模型性能;并借助多阶段蒸馏策略和系统级优化,实现了 10
阿里云 PAI 团队推出专为视频生成任务设计的 PAIFuser 框架。针对扩散模型(Diffusion Models),尤其是 DiT(Diffusion Transformer)架构,PAIFuser 通过高性能一体化训练与推理加速框架,有效解决高计算复杂度、显存消耗大、实时性不足等问题。
《Text-to-Image Diffusion Models are Zero-Shot Video Generators》提出了一种无需训练的零样本视频生成方法。该方法通过改进现有文本-图像模型(如Stable Diffusion),引入运动动力学保持场景一致性,并创新性地采用跨帧注意力机制保留前景对象特征。实验表明,这种零样本方法在质量和一致性上媲美甚至超越需要大规模训练的传统视频生成模型。
为弥合这一差距,本文提出了代理强化策略优化(ARPO),这是一种专为训练多轮 LLM 基础代理而设计的新颖代理强化学习算法,仅需现有方法一半的工具使用预算即可实现性能提升,为将基于 LLM 的代理与实时动态环境对齐提供了一种可扩展的解决方案。该模型是 Qwen3-30B-A3B 的非思考模式的更新版本,亮点在于仅激活 30 亿(3B)参数就能展现出与谷歌的 Gemini 2.5-Flash(非思考
近期,阿里巴巴旗下通义万相实验室开源了先进 AI 视频生成模型 Wan2.2,首次引入混合专家(MoE)架构,有效提升生成质量和计算效率,同时首创电影级美学控制系统,能精准控制光影、色彩、构图等美学效果。
值得注意的是,它可以生成符合指定轨迹的高质量视频,最高可达204帧,分辨率为720p。从GitHub 上的 README 文件来看,由于阿里目前的商业使用计划,当前开放的是文生视频版本的Tora。未来,阿里团队计划推出 ModelScope 的试用 demo、训练代码以及完整版本的 Tora,以满足更多用户的需求,这无疑将推动文生视频技术的进一步发展。尤其值得注意的是,当文本提示中的对象与预设轨迹
整理汇总下2024年ECCV AIGC相关的论文和代码,具体如下
一方面,研究人员尝试深化MLLMs对视觉的理解,从粗略的实例级理解过渡到对图像的像素级细粒度理解,从而实现视觉区域定位(Regional Grounding)能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。部分研究已经开始研究让MLLMs不仅理解输入视觉信号,还能支持生成输出视觉内容。Vitron作为一个统一的像素级视觉多模态大语言模型,实现了从低层次到高层次的视觉
在单目深度估计中表现出色,但在视频应用中存在时间不一致性的问题,限制了其实用性。现有方法虽然尝试解决这一问题,但仅适用于短视频,并在质量与计算效率之间存在权衡。
研究了好长时间的文生视频,EasyAnimate到了V2版本,我们将vae修改成了magvit,同时支持图片和视频的训练与预测,另外还引入了U-vit提高训练的稳定性并加快收敛。现在EasyAnimate最大支持768x768144帧的视频生成,FPS为24,最长6秒。本文主要进行EasyAnimateV2的算法详解,并且介绍一下如何通过EasyAnimate训练自己的Lora。
最近,一个国产AI神器火到外网了,火爆的原因,竟是生成视频的速度太快,有网友甚至表示这是最快的视频生成AI。这正是生数科技在1月15日发布的最新的大模型 Vidu 2.0。Vidu 2.0究竟有多快呢?就让小编带大家一起体验一下吧视频生成过程刚才小编展示的案例,是一个时长为 4 秒、分辨率为 512p 的图生视频;虽然官方说法是“最快 10 秒”,但实测下来不到10秒就能生成一个4秒的短视频。不仅
提出了StyleGaussian,一种新的3D风格化迁移技术,允许每秒10fps的速度,将任何风格即时传输到3D场景中。利用3DGS执行风格迁移,不会影响实时渲染能力和多视图一致性。(1)提出了StyleGaussian,一种新颖的三维风格化迁移手段。(2)设计了一种有效的特征渲染策略,可以在渲染高维特征中,将学习到的特征嵌入到冲减的三维高斯特征中。(3)设计了一个基于KNN的3D CNN,可以在
正在更新中,需要具体课件可私信
EasyAnimate 是阿里云推出的基于 DiT 的高质量长视频生成框架,具备视频预处理、VAE 训练、DiT 训练、LoRA 训练、模型推理与评估等功能。通过少量图片进行 LoRA 微调,实现视频风格转换,增强系统扩展性和完整性。
VBench 不仅包含了 16 个分层和解耦的评测维度,确保了评估的全面性和细致度,还通过贴近人类感知的评测方法,提高了评估结果的真实性和可靠性。最新发布的 VBench++ 支持更广泛的视频生成任务,包括文本生成视频和图像生成视频,并配有一套自适应的图像套件,以便在不同的设置下进行公平评估。,榜单内容多次被知名视频模型厂商、头部科技媒体引用,能否在 VBench 榜单上名列前茅,已成为衡量视频生
最近给EasyAnimateV3写了ComfyUI的工作流,以方便别人测试。不过一点一点安装环境再拉起服务有点麻烦,在Windows上用秋叶包比较简单,写个教程如何结合ComfyUI秋叶包+EasyAnimate 本地快速拉起。在人工智能艺术创作的领域里,Stable Diffusion 凭借其开放源代码的特性,吸引了众多开发者与艺术家的目光,并且因为强大的社区支持而展现出强大的影响力。
视频生成与视频识别是视频分析的两大任务,前者侧重于对下一帧的预测,而前者则侧重于视频内容的理解。由于视频是由一系列的视频帧组成的,那么如果有大量的视频数据,通过分析视频中动态场景的变化情况,就可以合成出一些小的动态场景视频。这也是论文Generating Videos with Scene Dynamics(http://carlvondrick.com/tinyvideo/paper.pdf)的
该论文提出了一个基于Diffusion Transformer的大规模文本到视频模型CogVideoX,可以实现生成与文本对齐的10s连续视频,分辨率为768*1360 pixels。为了解决现有视频模型存在移动空间有限,持续时间短,难以生成基于文本的连续视频问题,该论文提出了几种方法。
早期构建三维特征场的尝试包括蒸馏特征场[20]和神经特征融合场[43]。他们通过跨多个视图将LSeg [21]或DINO [4]特征提炼为一个NeRF,学习了3D一致特征。Shen等人[39]通过将clip征提取成NeRF,进一步提取特征场进行few-shot 语言引导的自动操作。[Panoptic lifting for 3d scene understandingwith neural f
一篇文章带你快速入门扩散模型
该论文提出了一种名为SimVS的视频模型方法,旨在解决稀疏多视角图像捕捉中因动态变化(光照变化、物体运动)导致的视图合成鲁棒性问题。动机:现有方法在动态场景下需要依赖静态假设信息(比如NeRF),而实际的应用中输入的图像存在动态干扰,导致重建质量下降,或者使用了很少的数据,最后重建结果出现残影或者几何错乱(如下图CAT3D近期的NVS模型都是从一组一致性的图像作为输入,场景几何形状和照明。
视频生成
——视频生成
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net