
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
介绍InternVL3(InternVL系列重大升级):实现原生多模态预训练(预训练阶段同步习得语言与多模态能力,规避传统后训练复杂优化难题)。核心技术:引入可变视觉位置编码(支持更长多模态上下文)、结合有监督微调与混合偏好优化等先进后训练策略、采用测试阶段缩放方案。性能表现:全品类多模态任务树立开源模型新标杆,保留强大语言能力;InternVL3-78B在MMMU基准测试中72.2,超越现有开源

deepspeed 是一个实现模型并行的开源框架,但网上很难搜索到基于ds实现训练自己模型的代码。为此对deepspeed 官网api与豆包模型进行拷打,整理出可用的demo。。 ZeRO-1:减少优化器状态的内存占用。ZeRO-2:进一步减少梯度的内存占用。ZeRO-3:完全消除冗余,将模型参数也进行分区,显著减少内存占用,但通信开销增加。

本文(Dual-Expert Consistency Model, DCM):其中。DCM 在的同时,仍能,验证了双专家机制在视频扩散模型蒸馏中的有效性。
项目地址:https://github.com/hao-ai-lab/FastVideo模型地址:https://huggingface.co/FastVideo/FastWan2.1-T2V-1.3B-Diffusers/tree/main发表时间:2025.8.4 (v4版本)DiTs的扩展能力受限于其二次3D注意力机制,尽管大部分注意力权重集中在少量位置子集上。我们将这一发现转化为VSA,一

本文主要时真的DCM模型推理时,将sem模型与det模型通过lora参数的lora来进行区分,故尝试将其分开为2个模型。并尝试将其改造为标准WanVideo_comfy kj wan模型权重。最后搭建工作流实现模型推理,推理效果低于预期,应该是Scheduler没有能迁移到WanVideo_comfy 中。

VACE是阿里团队基于wan2.1设计的统一视频编辑模型,与wan2.1的文生视频、图生视频能力相比,VACE统一了多种视频编辑与生成软件的设计,将重绘、编辑、可控生成、帧参考生成和基于ID的视频合成等能力整合到一个统一的逻辑,称为视频条件单元,通过利用上下文适配器结构,使用时间维度和空间维度的正式表示将不同的任务概念注入到模型。如下图展示的能力有,参考图生视频、视频(pose、depth、gar

demo:模型:或github:是Qwen系列中能力最强的,在多模态基准测试中表现优异。该模型,无缝整合文本、图像和视频。(2B/4B/8B/32B)和(30B-A3B/235B-A22B),以适应不同延迟-质量权衡。Qwen3-VL交付三大核心支柱:(i),在某些场景超越同类纯文本骨干模型;(ii),原生支持256K标记窗口,适用于文本和交错多模态输入,能忠实保留、检索及跨长文档/视频交叉引用;

前置要求:conda环境搭建好,已经按照torch-cuda运行环境。

在深度学习中模型量化可以分为3块知识点,数据类型、常规模型量化与大模型量化。本文主要是对这3块知识点进行浅要的介绍。其中数据类型是模型量化的基本点。常规模型量化是指对普通小模型的量化实现,通常止步于int8的量化,绝大部分推理引擎都支持该能力。而大模型的量化,需要再cuda层次进行能力的扩展,需要特殊的框架支持。

`DDP模式下对batchnorm的训练有影响,因为DDP模式下每个卡拿到的都是局部数据,故需要将batchnorm替换为syncbatchnorm,在bn层的forward前需要将全局多机所有显卡计算出的均值方差数据进行同步。`这里需要注意的是,`DP/DDP可以基于数据划分的模式提升batchsize,达到单机单卡下梯度累积训练的效果,但解决不了显存不够用的情况(单机下batch为1无法训练的








