logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于vLLM-Ascend的MiniMax-M2.5模型Atlas 800I A3单机混部部署实践

本文档将介绍基于vLLM-Ascend的MiniMax-M2.5模型在Atlas 800I A3上的单机混部部署实践,包括支持的特性、特性配置、环境信息以及性能测试典型case。

#人工智能#python#transformer
基于vLLM-Ascend的DeepSeek-V3.2模型Atlas 800I A3单机混部部署实践

本文档将介绍基于vLLM-Ascend的DeepSeek-V3.2模型在Atlas 800I A3上的单机混部部署实践,包括支持的特性、特性配置、环境信息以及性能测试典型case。

#python#transformer
GLM5-744B 模型结构拆解和昇腾profilling分析

GLM-5 是智谱AI推出的第五代大语言模型,采用混合专家(MoE)架构,约 7450 亿总参数,256 个专家、每 token 激活 8 个(稀疏率 5.9%。GLM总共有744B参数,40B的激活参数。维度参数值说明模型类型GLM 混合专家模型,带动态稀疏注意力隐藏层维度6,144模型主干宽度层数78Transformer 层总数注意力头数64多头注意力机制的头数前馈层维度12,288稠密层的

文章图片
#人工智能
GLM5-744B 模型结构拆解和昇腾profilling分析

GLM-5 是智谱AI推出的第五代大语言模型,采用混合专家(MoE)架构,约 7450 亿总参数,256 个专家、每 token 激活 8 个(稀疏率 5.9%。GLM总共有744B参数,40B的激活参数。维度参数值说明模型类型GLM 混合专家模型,带动态稀疏注意力隐藏层维度6,144模型主干宽度层数78Transformer 层总数注意力头数64多头注意力机制的头数前馈层维度12,288稠密层的

#人工智能
到底了