logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

MindSpeed-RL GRPO 昇腾全共卡方案实践总结

本文分享了基于昇腾Atlas 800T A2服务器,使用MindSpeed-RL框架对Qwen2.5-7B/32B模型进行GRPO训练的实践经验。重点介绍了自定义数据集和奖励规则的适配方法:通过修改map_keys和dataset_additional_keys字段实现数据格式转换,并详细说明了如何根据任务需求设计自定义reward规则。同时提供了数据集预处理模板配置和奖励函数映射的具体实现方案,

#python#人工智能#深度学习 +1
MindSpeed-RL GRPO 昇腾全共卡方案实践总结

本文分享了基于昇腾Atlas 800T A2服务器,使用MindSpeed-RL框架对Qwen2.5-7B/32B模型进行GRPO训练的实践经验。重点介绍了自定义数据集和奖励规则的适配方法:通过修改map_keys和dataset_additional_keys字段实现数据格式转换,并详细说明了如何根据任务需求设计自定义reward规则。同时提供了数据集预处理模板配置和奖励函数映射的具体实现方案,

#python#人工智能#深度学习 +1
到底了