
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文深入探讨了在昇腾 NPU 上实现高性能 SpMM 算子的完整路径:✅核心技术CSR 格式内存对齐Vector Core 向量化聚合动态分块应对幂律分布多核 Work-stealing 负载均衡✅工程实践完整 Ascend C 工程模板DGL → CSR → Ascend C 端到端流程msprof + Roofline 性能分析✅性能成果在 Reddit 图上达超越 GPU 实现,提升昇腾生态

随着 LLaMA、Qwen、ChatGLM 等大语言模型(LLM)的普及,标准算子库已难以满足新型架构的性能需求。:通过重计算减少 HBM 访问;RMSNorm + SwiGLU 融合:消除中间激活存储;Rotary Embedding 内联:避免额外位置编码张量。这些优化若依赖框架内置算子,往往因Kernel 启动开销和中间内存分配导致性能损失高达 30%~50%。而Ascend C + Min

本文通过 Conv+Bias+ReLU 融合案例,系统讲解了 Ascend C 中多算子融合的设计方法。减少 DDR 访问次数;最大化计算与搬运并行;精细管理片上内存。掌握此技能后,可应对任意算子融合需求,为高性能 AI 推理奠定坚实基础。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。

本文通过 RMSNorm + SwiGLU 融合算子,展示了 Ascend C 在大模型推理优化中的巨大价值。算子融合减少 DDR 访问;片上计算最大化利用 UB 带宽;向量化匹配硬件 SIMD 单元。该模式可推广至Attention QKV 融合、RoPE 位置编码融合等场景,是 LLM 推理加速的黄金法则2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全

本文通过 RMSNorm + SwiGLU 融合算子,展示了 Ascend C 在大模型推理优化中的巨大价值。算子融合减少 DDR 访问;片上计算最大化利用 UB 带宽;向量化匹配硬件 SIMD 单元。该模式可推广至Attention QKV 融合、RoPE 位置编码融合等场景,是 LLM 推理加速的黄金法则2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全

随着 LLaMA、Qwen、ChatGLM 等大语言模型(LLM)的普及,标准算子库已难以满足新型架构的性能需求。:通过重计算减少 HBM 访问;RMSNorm + SwiGLU 融合:消除中间激活存储;Rotary Embedding 内联:避免额外位置编码张量。这些优化若依赖框架内置算子,往往因Kernel 启动开销和中间内存分配导致性能损失高达 30%~50%。而Ascend C + Min

本文通过 Conv+Bias+ReLU 融合案例,系统讲解了 Ascend C 中多算子融合的设计方法。减少 DDR 访问次数;最大化计算与搬运并行;精细管理片上内存。掌握此技能后,可应对任意算子融合需求,为高性能 AI 推理奠定坚实基础。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。

Cube Core 调度机制矩阵分块与内存布局流水线隐藏延迟技巧多核并行调度这不仅是 GEMM 优化,更是理解所有稠密计算(如 Conv、Attention)的基础。

本文通过 RMSNorm + SwiGLU 融合算子,展示了 Ascend C 在大模型推理优化中的巨大价值。算子融合减少 DDR 访问;片上计算最大化利用 UB 带宽;向量化匹配硬件 SIMD 单元。该模式可推广至Attention QKV 融合、RoPE 位置编码融合等场景,是 LLM 推理加速的黄金法则2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全

本文通过 Conv+Bias+ReLU 融合案例,系统讲解了 Ascend C 中多算子融合的设计方法。减少 DDR 访问次数;最大化计算与搬运并行;精细管理片上内存。掌握此技能后,可应对任意算子融合需求,为高性能 AI 推理奠定坚实基础。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。








