
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Remove padding在大语言模型训练过程中,输入数据通常由长度不一的序列组成。为了支持批处理,传统方案通过在 batch 内对所有序列填充(padding)至相同长度实现。这种方式虽然方便模型计算,但会引入大量无效计算,尤其当短序列远多于长序列时,训练效率显著下降。为了解决上述问题,引入了remove_padding 特性,通过对有效 token 部分拼接(packing)后计算,有效消除
【昇腾】光链路脏污检查方法
昇腾MindSpeed RL的代码结构类图
昇腾MindSpeed RL的训推共卡和Resharding特性代码解析MindSpeed-RL仓库目前主推的部署方式为全共卡部署,即 Actor, Reference 等 worker 分时复用同一批机器资源,交替进行计算任务。 在全共卡配置中,为了节省显存,各个计算任务执行时只会将必要的数据加载到显存上,并在结束计算任务后,将加载的数据重新卸载到CPU侧的内存上。在大模型RL后训练过程中,模型
【昇腾】Mind IE纯模型测试,提示mki_cfg.ini does not exist经排查,程序实际执行成功,已经产出性能测试结果文件到下面路径,只是打屏信息较少,开启打屏多打些信息: export MINDIE_RT_LOG_PRINT_TO_STDOUT=1export MINDIE_RT_LOG_LEVEL=0export MINDIE_LOG_TO_STDOUT = 1

在数据并行(Data Parallel, DP)训练中,若各 DP 节点的序列总长度不均衡,会导致计算量少的节点提前完成等待,形成「木桶效应」。该特性通过装箱算法均衡各 DP 节点的序列总长度,减少节点间等待时间,提升分布式训练效率。详细原理请参考:数据并行负载均衡(DP Batch Balance)。下面我们对该特性的代码实现做详细的介绍。
MindIE服务器推理,config.json权限问题:config.json failed, by: Check Other group permission failed: Current permission is 4, but required no greater than 0. Required permission: 750, but got 644failed to check c
本文主要介绍昇腾训练/推理,双机直连组网环境准备和检查,不包括具体训练和推理过程。包括:组网要求链路状态检查配置服务器IP地址配置检测对象ip直连多口连通性检测使用HCCL TEST性能测试工具检查

HCCL性能测试工具:HCCL TEST使用HCCL TEST工具简介HCCL_SOCKET_IFNAME环境变量使用

Remove padding在大语言模型训练过程中,输入数据通常由长度不一的序列组成。为了支持批处理,传统方案通过在 batch 内对所有序列填充(padding)至相同长度实现。这种方式虽然方便模型计算,但会引入大量无效计算,尤其当短序列远多于长序列时,训练效率显著下降。为了解决上述问题,引入了remove_padding 特性,通过对有效 token 部分拼接(packing)后计算,有效消除







