logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《挑战稀疏计算:用 Ascend C 实现高性能 GNN 的 SpMM 算子》

本文深入探讨了在昇腾 NPU 上实现高性能 SpMM 算子的完整路径:✅核心技术CSR 格式内存对齐Vector Core 向量化聚合动态分块应对幂律分布多核 Work-stealing 负载均衡✅工程实践完整 Ascend C 工程模板DGL → CSR → Ascend C 端到端流程msprof + Roofline 性能分析✅性能成果在 Reddit 图上达超越 GPU 实现,提升昇腾生态

文章图片
#人工智能
《Ascend C 与 MindSpore 深度集成:自定义算子开发、图融合优化与工业级端到端部署全链路实战》

随着 LLaMA、Qwen、ChatGLM 等大语言模型(LLM)的普及,标准算子库已难以满足新型架构的性能需求。:通过重计算减少 HBM 访问;RMSNorm + SwiGLU 融合:消除中间激活存储;Rotary Embedding 内联:避免额外位置编码张量。这些优化若依赖框架内置算子,往往因Kernel 启动开销和中间内存分配导致性能损失高达 30%~50%。而Ascend C + Min

文章图片
#c语言#开发语言
Ascend C 高级技巧:多算子融合(Kernel Fusion)与流水线调度实战

本文通过 Conv+Bias+ReLU 融合案例,系统讲解了 Ascend C 中多算子融合的设计方法。减少 DDR 访问次数;最大化计算与搬运并行;精细管理片上内存。掌握此技能后,可应对任意算子融合需求,为高性能 AI 推理奠定坚实基础。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。

文章图片
#c语言#开发语言
面向大模型推理的 Ascend C 优化实战——高效实现 RMSNorm 与 SwiGLU 算子

本文通过 RMSNorm + SwiGLU 融合算子,展示了 Ascend C 在大模型推理优化中的巨大价值。算子融合减少 DDR 访问;片上计算最大化利用 UB 带宽;向量化匹配硬件 SIMD 单元。该模式可推广至Attention QKV 融合、RoPE 位置编码融合等场景,是 LLM 推理加速的黄金法则2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全

文章图片
#网络
面向大模型推理的 Ascend C 优化实战——高效实现 RMSNorm 与 SwiGLU 算子

本文通过 RMSNorm + SwiGLU 融合算子,展示了 Ascend C 在大模型推理优化中的巨大价值。算子融合减少 DDR 访问;片上计算最大化利用 UB 带宽;向量化匹配硬件 SIMD 单元。该模式可推广至Attention QKV 融合、RoPE 位置编码融合等场景,是 LLM 推理加速的黄金法则2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全

文章图片
#网络
《Ascend C 与 MindSpore 深度集成:自定义算子开发、图融合优化与工业级端到端部署全链路实战》

随着 LLaMA、Qwen、ChatGLM 等大语言模型(LLM)的普及,标准算子库已难以满足新型架构的性能需求。:通过重计算减少 HBM 访问;RMSNorm + SwiGLU 融合:消除中间激活存储;Rotary Embedding 内联:避免额外位置编码张量。这些优化若依赖框架内置算子,往往因Kernel 启动开销和中间内存分配导致性能损失高达 30%~50%。而Ascend C + Min

文章图片
#c语言#开发语言
Ascend C 高级技巧:多算子融合(Kernel Fusion)与流水线调度实战

本文通过 Conv+Bias+ReLU 融合案例,系统讲解了 Ascend C 中多算子融合的设计方法。减少 DDR 访问次数;最大化计算与搬运并行;精细管理片上内存。掌握此技能后,可应对任意算子融合需求,为高性能 AI 推理奠定坚实基础。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。

文章图片
#c语言#开发语言
《突破矩阵乘瓶颈:用 Ascend C 手写高性能 GEMM 算子》

Cube Core 调度机制矩阵分块与内存布局流水线隐藏延迟技巧多核并行调度这不仅是 GEMM 优化,更是理解所有稠密计算(如 Conv、Attention)的基础。

文章图片
#矩阵#c语言#线性代数
面向大模型推理的 Ascend C 优化实战——高效实现 RMSNorm 与 SwiGLU 算子

本文通过 RMSNorm + SwiGLU 融合算子,展示了 Ascend C 在大模型推理优化中的巨大价值。算子融合减少 DDR 访问;片上计算最大化利用 UB 带宽;向量化匹配硬件 SIMD 单元。该模式可推广至Attention QKV 融合、RoPE 位置编码融合等场景,是 LLM 推理加速的黄金法则2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全

文章图片
#网络
Ascend C 高级技巧:多算子融合(Kernel Fusion)与流水线调度实战

本文通过 Conv+Bias+ReLU 融合案例,系统讲解了 Ascend C 中多算子融合的设计方法。减少 DDR 访问次数;最大化计算与搬运并行;精细管理片上内存。掌握此技能后,可应对任意算子融合需求,为高性能 AI 推理奠定坚实基础。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。

文章图片
#c语言#开发语言
    共 15 条
  • 1
  • 2
  • 请选择