emo_dou 个人主页

@emo_dou

emo_dou

2026-05-20 16:03:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型推理的隐形成本：Prefill 和 Decode 为什么不能放在一起跑

摘要：本文探讨了大模型推理中的性能瓶颈问题，提出PD分离部署方案（Prefill-Decode Disaggregation），将Prefill和Decode阶段分别部署在不同机器上。重点介绍了昇腾的hixl通信库如何通过零拷贝单边通信技术，实现KVCache在NPU显存间的直接传输，避免了传统TCP/IP协议栈的多重拷贝开销。测试数据显示，hixl相比25G RoCE传输延迟降低至1/8，带宽利

#transformer #android #深度学习 +1

大模型推理的隐形成本：Prefill 和 Decode 为什么不能放在一起跑

#transformer #android #深度学习 +1

大模型推理的隐形成本：Prefill 和 Decode 为什么不能放在一起跑

#transformer #android #深度学习 +1

NumPy 的 np.dot 为什么跑不快？ops-blas 高性能矩阵乘深度解读

摘要：NumPy和PyTorch的矩阵乘法在CPU上运行缓慢，而昇腾NPU的ops-blas库通过优化矩阵乘法的分块策略和硬件适配，性能可提升50-100倍。ops-blas专注于BLAS规范的L3层矩阵乘法（GEMM），利用NPU的Cube单元和片上缓存实现高效计算。相比通用模板库catlass，ops-blas提供开箱即用的高性能GEMM实现，接近手写优化代码的性能，但使用更简单。实测显示，在

#transformer #android #深度学习 +1

NumPy 的 np.dot 为什么跑不快？ops-blas 高性能矩阵乘深度解读

#transformer #android #深度学习 +1

30 分钟跑通你的第一个昇腾算子：cann-learning-hub NoteBook 在线实战

摘要：昇腾CANN社区的cann-learning-hub提供在线NoteBook功能，无需本地配置即可在真实昇腾NPU上运行代码。用户通过浏览器即可体验AscendC算子开发，包括矢量加法、性能测试和算子修改等实操环节。该平台预置最新CANN环境，避免了驱动版本、编译器版本等配置问题，特别适合初学者快速入门。教程涵盖从基础算子到矩阵运算的开发路径，并提供cann-samples示例库参考。在线环

#transformer #android #深度学习 +1

30 分钟跑通你的第一个昇腾算子：cann-learning-hub NoteBook 在线实战

#transformer #android #深度学习 +1

同样的 AllReduce，性能差 10 倍？hccl 集合通信算法选型指南

本文分析了昇腾AI处理器在分布式训练中通信性能骤降5.3倍的原因，指出核心问题在于AllReduce算法选型错误。文章详细介绍了hccl（昇腾集合通信库）的三层架构设计：API层兼容NCCL接口，算法层提供Ring/Mesh/RHD三种通信算法（分别适用于不同规模集群），链路层支持HCCS/RoCE/PCIe等多种物理连接。重点阐述了8卡以上集群应选用Mesh算法而非Ring算法，以及HCCS专用

#transformer #android #深度学习

同样的 AllReduce，性能差 10 倍？hccl 集合通信算法选型指南

#transformer #android #深度学习

同样的 AllReduce，性能差 10 倍？hccl 集合通信算法选型指南

#transformer #android #深度学习

共 12 条

请选择