
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
近期,我们在NPU集群上开展了Qwen2.5VL-72B模型的128K长序列训练任务。针对多模态大模型在长序列场景下面临的显存压力和计算效率挑战,本文记录了FSDP2框架适配、显存异常管理、Ring/Ulysses/Hybrid混合序列并行、ViT-DP异构并行、重计算优化、模型加载优化(meta-device、cpu-init、dcp使能)等一系列关键技术攻关工作。需求背景。
MFU(Model Flop Utilization,模型浮点运算利用率)是衡量大模型训练 / 推理效率的核心指标,用于量化硬件(如 GPU)的浮点运算能力被模型实际利用的比例。其计算原理围绕 “理论最大算力” 与 “模型实际消耗算力” 的比值展开,直接反映了硬件资源的利用效率。在深度学习领域,评估模型的计算量通常涉及到多个指标,其中MACs(Multiply-Accumulate Operati
作者:昇腾实战派 x 哒妮滋T5模型,是 Transfer Text-to-Text Transformer 的简写;Transfer 来自 Transfer Learning,预训练模型大体在这范畴,Transformer 也不必多说,Text-to-Text 是作者在这提出的一个统一训练框架,将所有 NLP 任务都转化成 Text-to-Text (文本到文本)任务。英德翻译:只需将训练数据集
作者:昇腾实战派 x 哒妮滋T5模型,是 Transfer Text-to-Text Transformer 的简写;Transfer 来自 Transfer Learning,预训练模型大体在这范畴,Transformer 也不必多说,Text-to-Text 是作者在这提出的一个统一训练框架,将所有 NLP 任务都转化成 Text-to-Text (文本到文本)任务。英德翻译:只需将训练数据集
每张卡上的 module,api,kernel(O0)组成了一个Ranknode(O1),不同的 Ranknode 组成对应的T/D/PP域节点(O1.5),不同的并行域节点拼合形成完整(model)micro_step(O2),不同 micro step拼合形成 step(O3),多个step拼合形成区域段数据集表现,一般就loss趋势等。下面探讨精度问题定位过程中几个核心步骤。
项目背景:昇腾实战派,Ming项目背景随着文生图模型的发展,出现了更多“小而美”的文生图后训练模型,通过使用flux模型以及DanceGRPO框架做生成模型强化学习,能够在模型尺寸较小的情况下,提升生成图片的质量与效果。
摘要: 本文介绍了在昇腾AI环境下,将多模态大模型Qwen3-VL-8B的强化学习训练框架从SWIFT迁移至VeRL的适配过程。重点包括环境搭建(CANN、vLLM、VeRL安装)、数据集处理(Geo3k)、模型优化(代码修改)及训练脚本配置。实验使用GRPO算法进行RLHF训练,并对比了性能优化效果,为多模态大模型的强化学习任务提供了实践参考。
摘要: 本文介绍了在昇腾AI环境下,将多模态大模型Qwen3-VL-8B的强化学习训练框架从SWIFT迁移至VeRL的适配过程。重点包括环境搭建(CANN、vLLM、VeRL安装)、数据集处理(Geo3k)、模型优化(代码修改)及训练脚本配置。实验使用GRPO算法进行RLHF训练,并对比了性能优化效果,为多模态大模型的强化学习任务提供了实践参考。
本文详细介绍了在昇腾AI环境下的完整安装配置流程。主要内容包括:1)驱动固件安装步骤及版本检查;2)CANN工具链(Toolkit、Kernels算子包、NNAL加速库)的下载安装与配置;3)PyTorch框架及torch_npu插件的安装验证;4)apex加速库的安装说明。文中提供了官方文档链接、版本配套矩阵和详细的命令行操作指南,特别强调了安装顺序、用户权限管理和环境变量配置等关键注意事项。通
本文详细介绍了在昇腾AI环境下的完整安装配置流程。主要内容包括:1)驱动固件安装步骤及版本检查;2)CANN工具链(Toolkit、Kernels算子包、NNAL加速库)的下载安装与配置;3)PyTorch框架及torch_npu插件的安装验证;4)apex加速库的安装说明。文中提供了官方文档链接、版本配套矩阵和详细的命令行操作指南,特别强调了安装顺序、用户权限管理和环境变量配置等关键注意事项。通








