logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深入 Ascend C 编程模型:从零构建高性能 AI 算子—— 实战深度可分离卷积

本文通过 Depthwise Convolution 的完整实现,展示了 Ascend C 在复杂算子开发中的高级技巧。精细的内存规划(Tiling + 双缓冲);计算与搬运的流水线重叠;充分利用 Vector Unit 的向量化能力。掌握这些技能后,开发者可进一步挑战等核心算子,为大模型推理/训练提供极致加速。未来方向:结合 AutoTVM 或 Ansor 思想,实现 Ascend C 算子的自

文章图片
#人工智能#深度学习
《Ascend C 高级特性实战:自定义 LayerNorm 与 GEMM 融合算子开发》

本文展示了如何利用 Ascend C 的高级特性实现高性能算子融合。LayerNorm + GEMM 融合是大模型推理中的经典优化场景,类似思路还可用于等。未来,随着和Graph IR的成熟,开发者将能以更高抽象级别编写高效算子,进一步推动国产 AI 生态发展。提示:完整工程代码包含 Makefile、ACL 调用封装、PyTorch 绑定,可在 GitHub 获取。

文章图片
#c语言#开发语言
深入 Ascend C:华为昇腾 AI 处理器的高性能算子开发利器

Swish 是 Google 提出的激活函数:相比 ReLU,它在深层网络中表现更优,且平滑可导。我们将实现β=1.0 的 FP16 版本。本文打通了Ascend C → PyTorch → ONNX → OM 模型的全链路。掌握此流程,你即可在 PyTorch 生态中充分发挥昇腾 NPU 的定制化优势,为大模型推理加速铺平道路。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出

文章图片
#pytorch#c语言#人工智能
从零手撕一个 INT8 GEMM 算子:我在昇腾上跑通大模型量化推理的全过程(完整实践版)

本文不仅实现了高性能 INT8 GEMM,更构建了从量化校准、算子开发到精度验证的完整闭环。通过 Per-Channel 量化与双缓冲流水线,我们在保持 0.8% 误差的同时,实现了2 倍吞吐提升与 2 倍内存压缩。在大模型推理时代,掌握此类低比特优化技术,将成为 AI 工程师的核心竞争力。实现 INT4 GEMM(通过 unpack 指令);集成到 vLLM 或 TensorRT-LLM 类框架

文章图片
#c语言#性能优化#开发语言
《Ascend C 高级特性实战:自定义 LayerNorm 与 GEMM 融合算子开发》

本文展示了如何利用 Ascend C 的高级特性实现高性能算子融合。LayerNorm + GEMM 融合是大模型推理中的经典优化场景,类似思路还可用于等。未来,随着和Graph IR的成熟,开发者将能以更高抽象级别编写高效算子,进一步推动国产 AI 生态发展。提示:完整工程代码包含 Makefile、ACL 调用封装、PyTorch 绑定,可在 GitHub 获取。

文章图片
#c语言#开发语言
深入 Ascend C 编程模型:从算子开发到性能优化实战

首先在 Host 端注册算子(略),重点在 Device 端 kernel 实现。) {// Kernel 主体Ascend C 是释放昇腾芯片算力的关键工具。通过显式控制内存搬运、计算流水与并行调度,开发者可编写出接近理论峰值性能的算子。本文通过 Conv3D 案例展示了从分块、双缓冲到向量化计算的完整流程。未来,随着 CANN 版本升级,Ascend C 将支持更多高级特性(如自动 tilin

文章图片
#c语言#性能优化#开发语言
深入 Ascend C:华为昇腾 AI 处理器的高性能算子开发利器

Swish 是 Google 提出的激活函数:相比 ReLU,它在深层网络中表现更优,且平滑可导。我们将实现β=1.0 的 FP16 版本。本文打通了Ascend C → PyTorch → ONNX → OM 模型的全链路。掌握此流程,你即可在 PyTorch 生态中充分发挥昇腾 NPU 的定制化优势,为大模型推理加速铺平道路。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出

文章图片
#pytorch#c语言#人工智能
从零手撕一个 INT8 GEMM 算子:我在昇腾上跑通大模型量化推理的全过程(完整实践版)

本文不仅实现了高性能 INT8 GEMM,更构建了从量化校准、算子开发到精度验证的完整闭环。通过 Per-Channel 量化与双缓冲流水线,我们在保持 0.8% 误差的同时,实现了2 倍吞吐提升与 2 倍内存压缩。在大模型推理时代,掌握此类低比特优化技术,将成为 AI 工程师的核心竞争力。实现 INT4 GEMM(通过 unpack 指令);集成到 vLLM 或 TensorRT-LLM 类框架

文章图片
#c语言#性能优化#开发语言
深入 Ascend C 编程模型:从零构建高性能 AI 算子—— 实战深度可分离卷积

本文通过 Depthwise Convolution 的完整实现,展示了 Ascend C 在复杂算子开发中的高级技巧。精细的内存规划(Tiling + 双缓冲);计算与搬运的流水线重叠;充分利用 Vector Unit 的向量化能力。掌握这些技能后,开发者可进一步挑战等核心算子,为大模型推理/训练提供极致加速。未来方向:结合 AutoTVM 或 Ansor 思想,实现 Ascend C 算子的自

文章图片
#人工智能#深度学习
从零手撕一个 INT8 GEMM 算子:我在昇腾上跑通大模型量化推理的全过程(完整实践版)

本文不仅实现了高性能 INT8 GEMM,更构建了从量化校准、算子开发到精度验证的完整闭环。通过 Per-Channel 量化与双缓冲流水线,我们在保持 0.8% 误差的同时,实现了2 倍吞吐提升与 2 倍内存压缩。在大模型推理时代,掌握此类低比特优化技术,将成为 AI 工程师的核心竞争力。实现 INT4 GEMM(通过 unpack 指令);集成到 vLLM 或 TensorRT-LLM 类框架

文章图片
#c语言#性能优化#开发语言
    共 16 条
  • 1
  • 2
  • 请选择