logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

​昇腾MindSpeed RL的transfer-dock特性代码解析​

在LLM后训练过程中,各个计算任务之间存在较多数据依赖。为此,提供一个数据管理系统用于管理后训练中的数据流程。本方案在LLM后训练系统中连接了推理框架与训练框架,扮演了转运港口的角色:1、数据生产者将生成数据写入到数据系统中;2、数据系统将数据存储至预先分配的缓存区,并更新数据状态;3、数据消费者向数据系统发送请求,若存在足量数据,则将对应数据组织为Batch,返回给数据消费者。在该架构中,推理框

#昇腾
​昇腾MindSpeed RL的transfer-dock特性代码解析​

在LLM后训练过程中,各个计算任务之间存在较多数据依赖。为此,提供一个数据管理系统用于管理后训练中的数据流程。本方案在LLM后训练系统中连接了推理框架与训练框架,扮演了转运港口的角色:1、数据生产者将生成数据写入到数据系统中;2、数据系统将数据存储至预先分配的缓存区,并更新数据状态;3、数据消费者向数据系统发送请求,若存在足量数据,则将对应数据组织为Batch,返回给数据消费者。在该架构中,推理框

#昇腾
昇腾MindSpeed RL的训推共卡和Resharding特性代码解析

昇腾MindSpeed RL的训推共卡和Resharding特性代码解析MindSpeed-RL仓库目前主推的部署方式为全共卡部署,即 Actor, Reference 等 worker 分时复用同一批机器资源,交替进行计算任务。 在全共卡配置中,为了节省显存,各个计算任务执行时只会将必要的数据加载到显存上,并在结束计算任务后,将加载的数据重新卸载到CPU侧的内存上。在大模型RL后训练过程中,模型

#人工智能#深度学习#昇腾
昇腾MindSpeed RL的训推共卡和Resharding特性代码解析

昇腾MindSpeed RL的训推共卡和Resharding特性代码解析MindSpeed-RL仓库目前主推的部署方式为全共卡部署,即 Actor, Reference 等 worker 分时复用同一批机器资源,交替进行计算任务。 在全共卡配置中,为了节省显存,各个计算任务执行时只会将必要的数据加载到显存上,并在结束计算任务后,将加载的数据重新卸载到CPU侧的内存上。在大模型RL后训练过程中,模型

#人工智能#深度学习#昇腾
昇腾MindSpeed RL的训推共卡和Resharding特性代码解析

昇腾MindSpeed RL的训推共卡和Resharding特性代码解析MindSpeed-RL仓库目前主推的部署方式为全共卡部署,即 Actor, Reference 等 worker 分时复用同一批机器资源,交替进行计算任务。 在全共卡配置中,为了节省显存,各个计算任务执行时只会将必要的数据加载到显存上,并在结束计算任务后,将加载的数据重新卸载到CPU侧的内存上。在大模型RL后训练过程中,模型

#人工智能#深度学习#昇腾
【昇腾】双机直连组网配置

本文主要介绍昇腾训练/推理,双机直连组网环境准备和检查,不包括具体训练和推理过程。包括:组网要求链路状态检查配置服务器IP地址配置检测对象ip直连多口连通性检测使用HCCL TEST性能测试工具检查

文章图片
#昇腾
【昇腾】MindIE服务器推理,config.json权限问题解决

MindIE服务器推理,config.json权限问题:config.json failed, by: Check Other group permission failed: Current permission is 4, but required no greater than 0. Required permission: 750, but got 644failed to check c

#昇腾
【昇腾】双机直连组网配置

本文主要介绍昇腾训练/推理,双机直连组网环境准备和检查,不包括具体训练和推理过程。包括:组网要求链路状态检查配置服务器IP地址配置检测对象ip直连多口连通性检测使用HCCL TEST性能测试工具检查

文章图片
【昇腾】HCCL性能测试工具:HCCL TEST使用

HCCL性能测试工具:HCCL TEST使用HCCL TEST工具简介HCCL_SOCKET_IFNAME环境变量使用

文章图片
【昇腾】MindIE服务器推理,config.json权限问题解决

MindIE服务器推理,config.json权限问题:config.json failed, by: Check Other group permission failed: Current permission is 4, but required no greater than 0. Required permission: 750, but got 644failed to check c

到底了