
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
MindSpeed-RL GRPO 昇腾全共卡方案实践总结
本文分享了基于昇腾Atlas 800T A2服务器,使用MindSpeed-RL框架对Qwen2.5-7B/32B模型进行GRPO训练的实践经验。重点介绍了自定义数据集和奖励规则的适配方法:通过修改map_keys和dataset_additional_keys字段实现数据格式转换,并详细说明了如何根据任务需求设计自定义reward规则。同时提供了数据集预处理模板配置和奖励函数映射的具体实现方案,
MindSpeed-RL GRPO 昇腾全共卡方案实践总结
本文分享了基于昇腾Atlas 800T A2服务器,使用MindSpeed-RL框架对Qwen2.5-7B/32B模型进行GRPO训练的实践经验。重点介绍了自定义数据集和奖励规则的适配方法:通过修改map_keys和dataset_additional_keys字段实现数据格式转换,并详细说明了如何根据任务需求设计自定义reward规则。同时提供了数据集预处理模板配置和奖励函数映射的具体实现方案,
到底了







