mooche 个人主页

@mooche

mooche

2023-11-26 19:14:35 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

MindSpeed-RL GRPO 昇腾全共卡方案实践总结

本文分享了基于昇腾Atlas 800T A2服务器，使用MindSpeed-RL框架对Qwen2.5-7B/32B模型进行GRPO训练的实践经验。重点介绍了自定义数据集和奖励规则的适配方法：通过修改map_keys和dataset_additional_keys字段实现数据格式转换，并详细说明了如何根据任务需求设计自定义reward规则。同时提供了数据集预处理模板配置和奖励函数映射的具体实现方案，

#python #人工智能 #深度学习 +1

MindSpeed-RL GRPO 昇腾全共卡方案实践总结

#python #人工智能 #深度学习 +1

MindSpeed-RL GRPO 昇腾全共卡方案实践总结

#python #人工智能 #深度学习 +1

到底了