
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
SoulX-LiveAct突破实时数字人生成瓶颈,提出NeighborForcing和ConvKVMemory两大创新技术。通过同扩散步对齐解决了传统AR扩散模型训练不稳定和误差累积问题,采用轻量1D卷积实现KV缓存恒定压缩。仅需双H100 GPU即可实现20FPS小时级实时生成,在唇同步精度、视频质量和硬件成本上全面超越现有方案,将数字人技术推向大规模落地应用阶段。

《FlowMatching深度解析:下一代生成模型的核心原理》摘要 FlowMatching(FM)彻底革新了生成模型范式,解决了DDPM扩散模型的三大痛点:1)通过均匀时间目标消除时间偏好问题;2)直接学习速度向量场避免采样转换误差;3)实现10-40步高效采样。FM核心在于Conditional Flow Matching定理,证明通过训练样本条件向量场可以间接学习边缘向量场,无需复杂积分计算

清华大学朱军团队提出CausalForcing技术,突破实时交互式视频生成瓶颈。该技术通过解耦架构转换与速度蒸馏,重构自回归扩散蒸馏流程,在保持17FPS实时推理速度的同时,较此前SOTA方法实现动态度+19.3%、视觉奖励+8.7%、指令遵循+16.7%的提升。CausalForcing从理论根源解决帧级单射性问题,使综合表现超越原始双向模型,为实时视频生成开辟新方向。

PyTorch生态中两大核心加速技术——torch.compile和Triton,通过系统性优化实现了2-10倍的性能提升。torch.compile作为全局优化器,通过计算图捕获、算子融合等技术消除90%的GPU空转等待;Triton则专注于内核级优化,自动管理内存层次结构并最大化TensorCore利用率。两者协同工作时,torch.compile自动处理90%的普通算子,剩余10%的关键算子

摘要: 本文系统梳理了生成式AI从扩散模型到FlowMatching的技术演进。扩散模型(如SD1.5)基于SDE框架,通过概率流ODE实现采样兼容性,传统采样器(DPM-Solver等)通过优化数值方法将步数压缩至10-20步。少步生成技术(LCM、SDXLTurbo)通过修改模型向量场实现1-4步生成,本质是模型蒸馏而非采样器。2024年FlowMatching革命性突破,RectifiedF

摘要: 本文系统梳理了生成式AI从扩散模型到FlowMatching的技术演进。扩散模型(如SD1.5)基于SDE框架,通过概率流ODE实现采样兼容性,传统采样器(DPM-Solver等)通过优化数值方法将步数压缩至10-20步。少步生成技术(LCM、SDXLTurbo)通过修改模型向量场实现1-4步生成,本质是模型蒸馏而非采样器。2024年FlowMatching革命性突破,RectifiedF

本文深入解析了SelfForcing技术如何将Wan2.1视频生成模型的50步采样蒸馏至4步,同时解决自回归曝光偏差问题。研究显示,原生Wan2.1模型默认采样步数为50步(T2V任务),通过FlowMatching的数学优势(直线路径、无指数级误差放大)实现了高效蒸馏。SelfForcing创新性地将步数蒸馏与自回归训练合二为一,采用滚动KVCache机制实现固定显存下的长视频生成,在单GPU上

本文深入解析了DMD(Distribution Matching Distillation)的核心数学原理,从基础的概率密度、梯度、期望等概念出发,逐步推导出扩散模型与分数函数的等价性、KL散度的梯度计算等关键结论。文章特别强调: 扩散模型预测的噪声与分数函数存在严格的线性关系,揭示了扩散模型本质上是分数模型; 详细推导了KL散度对生成器参数的梯度公式,阐明其等于真假分数差与雅可比矩阵的乘积; 解

本文系统解析了扩散模型(DDPM)的核心原理与实现细节。首先阐述了前向扩散过程作为人为定义的马尔可夫链,通过逐步添加高斯噪声将数据破坏的过程,推导出任意步加噪的闭式解公式。重点剖析了训练阶段让模型学习预测噪声而非直接重建原图的巧妙设计,以及反向采样时采用分步去噪避免误差放大的关键机制。文章完整呈现了从贝叶斯公式推导完美去噪分布到实际采样公式的数学过程,并通过PyTorch代码展示了理论到实践的一一

SoulX-FlashTalk提出了一种创新的实时数字人生成方法,通过"块内双向建模+块间因果递推"的混合范式,实现了0.87秒启动延迟和32FPS的实时性能。其核心创新在于两阶段训练:首先对14B基础模型进行低延迟时空适配,然后通过自纠正双向蒸馏将高质量生成能力迁移到流式系统。该方法保留块内双向注意力以保证细节质量,同时采用chunk级自回归和随机rollout训练增强长时稳








