logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型推理的隐形成本:Prefill 和 Decode 为什么不能放在一起跑

摘要:本文探讨了大模型推理中的性能瓶颈问题,提出PD分离部署方案(Prefill-Decode Disaggregation),将Prefill和Decode阶段分别部署在不同机器上。重点介绍了昇腾的hixl通信库如何通过零拷贝单边通信技术,实现KVCache在NPU显存间的直接传输,避免了传统TCP/IP协议栈的多重拷贝开销。测试数据显示,hixl相比25G RoCE传输延迟降低至1/8,带宽利

文章图片
#transformer#android#深度学习 +1
大模型推理的隐形成本:Prefill 和 Decode 为什么不能放在一起跑

摘要:本文探讨了大模型推理中的性能瓶颈问题,提出PD分离部署方案(Prefill-Decode Disaggregation),将Prefill和Decode阶段分别部署在不同机器上。重点介绍了昇腾的hixl通信库如何通过零拷贝单边通信技术,实现KVCache在NPU显存间的直接传输,避免了传统TCP/IP协议栈的多重拷贝开销。测试数据显示,hixl相比25G RoCE传输延迟降低至1/8,带宽利

文章图片
#transformer#android#深度学习 +1
大模型推理的隐形成本:Prefill 和 Decode 为什么不能放在一起跑

摘要:本文探讨了大模型推理中的性能瓶颈问题,提出PD分离部署方案(Prefill-Decode Disaggregation),将Prefill和Decode阶段分别部署在不同机器上。重点介绍了昇腾的hixl通信库如何通过零拷贝单边通信技术,实现KVCache在NPU显存间的直接传输,避免了传统TCP/IP协议栈的多重拷贝开销。测试数据显示,hixl相比25G RoCE传输延迟降低至1/8,带宽利

文章图片
#transformer#android#深度学习 +1
NumPy 的 np.dot 为什么跑不快?ops-blas 高性能矩阵乘深度解读

摘要:NumPy和PyTorch的矩阵乘法在CPU上运行缓慢,而昇腾NPU的ops-blas库通过优化矩阵乘法的分块策略和硬件适配,性能可提升50-100倍。ops-blas专注于BLAS规范的L3层矩阵乘法(GEMM),利用NPU的Cube单元和片上缓存实现高效计算。相比通用模板库catlass,ops-blas提供开箱即用的高性能GEMM实现,接近手写优化代码的性能,但使用更简单。实测显示,在

文章图片
#transformer#android#深度学习 +1
NumPy 的 np.dot 为什么跑不快?ops-blas 高性能矩阵乘深度解读

摘要:NumPy和PyTorch的矩阵乘法在CPU上运行缓慢,而昇腾NPU的ops-blas库通过优化矩阵乘法的分块策略和硬件适配,性能可提升50-100倍。ops-blas专注于BLAS规范的L3层矩阵乘法(GEMM),利用NPU的Cube单元和片上缓存实现高效计算。相比通用模板库catlass,ops-blas提供开箱即用的高性能GEMM实现,接近手写优化代码的性能,但使用更简单。实测显示,在

文章图片
#transformer#android#深度学习 +1
30 分钟跑通你的第一个昇腾算子:cann-learning-hub NoteBook 在线实战

摘要:昇腾CANN社区的cann-learning-hub提供在线NoteBook功能,无需本地配置即可在真实昇腾NPU上运行代码。用户通过浏览器即可体验AscendC算子开发,包括矢量加法、性能测试和算子修改等实操环节。该平台预置最新CANN环境,避免了驱动版本、编译器版本等配置问题,特别适合初学者快速入门。教程涵盖从基础算子到矩阵运算的开发路径,并提供cann-samples示例库参考。在线环

文章图片
#transformer#android#深度学习 +1
30 分钟跑通你的第一个昇腾算子:cann-learning-hub NoteBook 在线实战

摘要:昇腾CANN社区的cann-learning-hub提供在线NoteBook功能,无需本地配置即可在真实昇腾NPU上运行代码。用户通过浏览器即可体验AscendC算子开发,包括矢量加法、性能测试和算子修改等实操环节。该平台预置最新CANN环境,避免了驱动版本、编译器版本等配置问题,特别适合初学者快速入门。教程涵盖从基础算子到矩阵运算的开发路径,并提供cann-samples示例库参考。在线环

文章图片
#transformer#android#深度学习 +1
同样的 AllReduce,性能差 10 倍?hccl 集合通信算法选型指南

本文分析了昇腾AI处理器在分布式训练中通信性能骤降5.3倍的原因,指出核心问题在于AllReduce算法选型错误。文章详细介绍了hccl(昇腾集合通信库)的三层架构设计:API层兼容NCCL接口,算法层提供Ring/Mesh/RHD三种通信算法(分别适用于不同规模集群),链路层支持HCCS/RoCE/PCIe等多种物理连接。重点阐述了8卡以上集群应选用Mesh算法而非Ring算法,以及HCCS专用

文章图片
#transformer#android#深度学习
同样的 AllReduce,性能差 10 倍?hccl 集合通信算法选型指南

本文分析了昇腾AI处理器在分布式训练中通信性能骤降5.3倍的原因,指出核心问题在于AllReduce算法选型错误。文章详细介绍了hccl(昇腾集合通信库)的三层架构设计:API层兼容NCCL接口,算法层提供Ring/Mesh/RHD三种通信算法(分别适用于不同规模集群),链路层支持HCCS/RoCE/PCIe等多种物理连接。重点阐述了8卡以上集群应选用Mesh算法而非Ring算法,以及HCCS专用

文章图片
#transformer#android#深度学习
同样的 AllReduce,性能差 10 倍?hccl 集合通信算法选型指南

本文分析了昇腾AI处理器在分布式训练中通信性能骤降5.3倍的原因,指出核心问题在于AllReduce算法选型错误。文章详细介绍了hccl(昇腾集合通信库)的三层架构设计:API层兼容NCCL接口,算法层提供Ring/Mesh/RHD三种通信算法(分别适用于不同规模集群),链路层支持HCCS/RoCE/PCIe等多种物理连接。重点阐述了8卡以上集群应选用Mesh算法而非Ring算法,以及HCCS专用

文章图片
#transformer#android#深度学习
    共 12 条
  • 1
  • 2
  • 请选择