logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型张量并行和序列并行介绍

本文分析了Transformer模型训练中的张量并行(TP)和序列并行(SP)技术。TP通过切分权重矩阵减少模型和激活显存,每层激活显存降至$sbh(10+24/tp+5as/h)$,需4次AllReduce通信。SP结合TP进一步减少LayerNorm和Dropout的激活显存,通过AllGather和ReduceScatter实现序列维度的并行。DeepSpeed-Ulysses采用All2A

#深度学习#人工智能
【VeRL】Qwen3-30B-A3B-DAPO NPU实践指导

本文分享了在NPU环境下使用VLLM+FSDP后端进行Qwen3-30B模型DAPO训练的完整实践方案。详细介绍了硬件平台Atlas 800T A2的版本配置,包括Python 3.11、CANN 8.3.RC1等关键组件版本。重点解析了核心参数设置,如数据配置中的batch size和长度限制,以及并行配置中的FSDP全分片和Ulysses序列并行策略。提供了从环境安装(torch、vllm、v

#深度学习#人工智能
混合专家模型(MoE)入门

模型规模是提升LLM大语言模型性能的关键因素,但也会增加计算成本。Mixture of Experts (MoE) 架构通过分布式专家层和动态门控机制,有效降低了计算资源,使模型能够在扩展参数规模的同时保持高效的运行。

文章图片
#深度学习#语言模型
nn-UNet使用记录--代码配置

nnunet代码使用上一篇博文中,我在第三方的超算平台上配置了nnunet包,上手简单,但调参非常有限,也不能使用自己的模型。本文我将在实验室的服务器配置nnunet代码包(也是怕以后用不了第三方的平台了),可以直接阅读和修改源码,我认为是非常有必要的。1.服务器环境import torchprint(torch.__version__)# torch版本查询print(torch.version

#深度学习#pytorch#图像处理
LAHeart2018左心房分割实战

2018 Atrial Segmentation ChallengeThe Left Atrium (LA) MR dataset from the Atrial Segmentation Challenge数据集下载地址:Data – 2018 Atrial Segmentation Challenge (cardiacatlas.org)数据集结构:一共有154例包含心房颤动的 3D MRI

文章图片
#计算机视觉#python#人工智能 +2
BraTS2021脑肿瘤分割实战

脑肿瘤分割是MICCAI所有比赛中历史最悠久的,到2021年已经连续举办了10年,参赛人数众多,是学习医学图像分割最前沿的平台之一。简介:​胶质母细胞瘤和具有胶质母细胞瘤分子特征的弥漫性星形细胞胶质瘤(WHO 4 级星形细胞瘤)是成人中枢神经系统最常见和最具侵袭性的恶性原发性肿瘤,在外观、形状和组织学上具有极端的内在异质性。胶质母细胞瘤患者的预后非常差,目前的治疗标准包括手术,然后是放疗和化疗。国

文章图片
#计算机视觉#人工智能#深度学习
到底了