MikeQuan0425 个人主页

@MikeQuan0425

MikeQuan0425

2022-11-23 19:46:59 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

基于VeRL GPT-OSS-20B MoE模型 DAPO 强化学习训练适配流程

随着大语言模型在工业场景的深度应用，GPT-OSS作为一款开源模型，通过创新的注意力机制设计实现掀起了一股新的浪潮，但在昇腾AI平台部署时面临注意力机制适配、显存优化等技术挑战。本文聚焦GPT-OSS在昇腾平台的高效实现，分享核心技术创新与模型适配实践，为该系列大模型部署提供技术参考。组件版本vLLM0.14.00.14.0torchtorch-npu4.57.6veRLmainCANN8.5.0

Qwen3-30B-A3B 模型在异步训练场景下的性能优化实践

随着大模型规模持续增长，推理与训练的性能瓶颈日益突出，尤其在MoE架构下，通信开销、算子效率与显存管理成为制约系统吞吐的关键因素。本文基于Atlas 800T A2服务器，聚焦于Qwen3-30B-A3B模型在异步训练场景下的全链路性能优化，系统性地探索了从推理算子优化、FSDP训练加速到Fully-Async架构打通的完整技术路径。通过多维度调优，最终显著提升训练效率与资源利用率。本实践系统性地

#性能优化

基于VeRL GPT-OSS-20B MoE模型 DAPO 强化学习训练适配流程

Qwen3.5-35B-VeRL-FSDP 功能适配实践

在大模型强化学习训练场景中，Qwen3.5-35B相比同类模型展现出更快的训练速度和更高的收敛效率，能够在更少的训练步数和更短的单步时间内达到优异的测试集准确率。为充分发挥其性能优势，我们基于昇腾硬件平台实现了VeRL强化学习训练框架的适配，以支持更大规模的分布式训练和多模态任务。

#pytorch #深度学习

Qwen3.5-35B-VeRL 训练性能优化实践

在大规模混合专家模型（MoE）的训练过程中，计算效率与显存贮瓶颈是经常遇到的挑战。以 Qwen3.5 MoE 为代表的模型结构，在训练时尤其需要高性能的算子实现和显存优化策略。我们在实际训练过程中，发现原有的 PyTorch 原生小算子可能会影响性能。为此，我们系统性地开展了一系列训练优化实验，重点引入 Triton 算子、优化显存异步卸载机制，并验证不同并行训练策略下的精度一致性，最终显著提升训

#性能优化

Qwen3.5-35B-VeRL 训练性能优化实践

#性能优化

Qwen3.5-35B-VeRL-FSDP 功能适配实践

#pytorch #深度学习

Qwen3.5-35B-VeRL-FSDP 功能适配实践

#pytorch #深度学习

Qwen3.5-35B-VeRL-FSDP 功能适配实践

#pytorch #深度学习

基于VeRL GPT-OSS-20B MoE模型 DAPO 强化学习训练适配流程

共 16 条

请选择