
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
mean triton确定性算子适配
作者:昇腾实战派 1、背景概述 在深度学习中,算子的确定性计算对于确保模型训练和推理的可复现性至关重要。然而,许多算子(如均值计算算子)在默认实现下可能存在非确定性问题,尤其是在float32数据类型上,这是由于浮点数计算不满足结合律,导致多核并行计算顺序不一致引入的数值偏差。本文以mean算子为例,系统性地复现了其在GPU和NPU上的非确定性计算问题,对比了确定性实现与非确定性实现的性能差异,
veRL异步异卡方案考古
作者:昇腾实战派 一、异步异卡概念澄清 异卡和共卡 训练和推理两个任务是否在同一张卡上。对应的准确表达是Disaggregated 和 colocated。为啥不把中文一一对应,因为colocated也有是共位还是共卡的歧义。 因为共卡这个词,是盘古提出的RL Fusion,认为和colacated的区别在于支持共卡的灵活部署,支持训推有不同的切分策略,但是感觉现在的veRL里应该默认都支持了。
到底了







