friezanmmm 个人主页

@friezanmmm

friezanmmm

2022-08-17 16:27:42 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

SGLang 与 VeRL 框架下大模型训练的高性能配置优化指南

参数配置方式性能 / 显存影响说明name自定义奖励函数的文件路径和名称调优建议：通过自定义奖励函数实现业务逻辑融合，如合规性、事实一致性、流畅性等，提升对齐质量。本指南系统梳理了 SGLang 与 VeRL 框架下大模型训练的核心配置项，涵盖批次控制、显存管理、生成策略、并行优化与算法调参等多个维度。通过合理配置，可在有限硬件资源下实现高效、稳定、可扩展的强化学习训练流程。建议开发者根据模型规模

#sglang

veRL 训推一致性工作及重要性采样代码演进分析

在强化学习领域，目前主流RL算法是基于On-Policy前提展开的，On-Policy理论要求采样数据的行为策略与梯度计算的目标策略保持一致，才能确保梯度估计是无偏的，朝则梯度最陡峭的方向优化，使得训练过程更平稳。关于On-Policy和Off-Policy的区别，On-Policy就是与环境交互产生数据的策略和要更新的策略是同一个策略，Off-Policy就是两者策略存在不同。以PPO为例，Cl

#人工智能 #python #算法 +2

veRL框架下DAPO强化学习算法的实现解析

随着大语言模型在复杂推理任务中的应用日益广泛，强化学习已成为提升模型生成质量的关键技术。DAPO（Decoupled Clip and Dynamic sAmpling Policy Optimization）作为一种新型策略优化算法，通过解耦裁剪、动态采样等机制，有效解决了长序列生成中的训练效率和稳定性问题。本文基于VeRL强化学习框架，深入解读DAPO算法的核心原理与代码实现，为开发者提供实践

#算法 #人工智能 #python +2

SGLang 与 VeRL 框架下大模型训练的高性能配置优化指南

#sglang

使用Ascend verl每日镜像进行大语言模型训练指南

本文介绍基于Ascend verl镜像的大语言模型训练实践。该镜像集成了Ubuntu 22.04操作系统和Python 3.11环境，并预装了verl、PyTorch、vLLM、Megatron-LM等框架，为在Ascend硬件上开展深度学习项目提供了开箱即用的解决方案。

#语言模型 #人工智能 #自然语言处理

veRL框架下DAPO强化学习算法的实现解析

#算法 #人工智能 #python +2

veRL fully async training 全异步方案

VeRL仓的贡献者：https://github.com/meituan-search（美团）作为前作，one step off主要在更新权重的Step之间，直接做了一步的错位，这样的实现最简单，通过一步错位来实现异步训练，能够把训练时间掩盖掉，推理持续进行。缺点包括训练空泡较大，并且一步的推理时长取决长尾句子，空泡更显著。

#人工智能 #算法 #python +1

到底了