2501_93930638 个人主页

@2501_93930638

2501_93930638

2025-12-08 19:27:57 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

《Ascend C 高级特性实战：自定义 LayerNorm 与 GEMM 融合算子开发》

本文展示了如何利用 Ascend C 的高级特性实现高性能算子融合。LayerNorm + GEMM 融合是大模型推理中的经典优化场景，类似思路还可用于等。未来，随着和Graph IR的成熟，开发者将能以更高抽象级别编写高效算子，进一步推动国产 AI 生态发展。提示：完整工程代码包含 Makefile、ACL 调用封装、PyTorch 绑定，可在 GitHub 获取。

#c语言 #开发语言

深入 Ascend C 编程模型：从算子开发到性能优化实战

首先在 Host 端注册算子（略），重点在 Device 端 kernel 实现。) {// Kernel 主体Ascend C 是释放昇腾芯片算力的关键工具。通过显式控制内存搬运、计算流水与并行调度，开发者可编写出接近理论峰值性能的算子。本文通过 Conv3D 案例展示了从分块、双缓冲到向量化计算的完整流程。未来，随着 CANN 版本升级，Ascend C 将支持更多高级特性（如自动 tilin

#c语言 #性能优化 #开发语言

深入 Ascend C 编程模型：从零构建高性能 AI 算子—— 实战深度可分离卷积

本文通过 Depthwise Convolution 的完整实现，展示了 Ascend C 在复杂算子开发中的高级技巧。精细的内存规划（Tiling + 双缓冲）；计算与搬运的流水线重叠；充分利用 Vector Unit 的向量化能力。掌握这些技能后，开发者可进一步挑战等核心算子，为大模型推理/训练提供极致加速。未来方向：结合 AutoTVM 或 Ansor 思想，实现 Ascend C 算子的自

#人工智能 #深度学习

《Ascend C 高级特性实战：自定义 LayerNorm 与 GEMM 融合算子开发》

#c语言 #开发语言

深入 Ascend C：华为昇腾 AI 处理器的高性能算子开发利器

Swish 是 Google 提出的激活函数：相比 ReLU，它在深层网络中表现更优，且平滑可导。我们将实现β=1.0 的 FP16 版本。本文打通了Ascend C → PyTorch → ONNX → OM 模型的全链路。掌握此流程，你即可在 PyTorch 生态中充分发挥昇腾 NPU 的定制化优势，为大模型推理加速铺平道路。2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出

#pytorch #c语言 #人工智能

从零手撕一个 INT8 GEMM 算子：我在昇腾上跑通大模型量化推理的全过程（完整实践版）

本文不仅实现了高性能 INT8 GEMM，更构建了从量化校准、算子开发到精度验证的完整闭环。通过 Per-Channel 量化与双缓冲流水线，我们在保持 0.8% 误差的同时，实现了2 倍吞吐提升与 2 倍内存压缩。在大模型推理时代，掌握此类低比特优化技术，将成为 AI 工程师的核心竞争力。实现 INT4 GEMM（通过 unpack 指令）；集成到 vLLM 或 TensorRT-LLM 类框架

#c语言 #性能优化 #开发语言

《Ascend C 高级特性实战：自定义 LayerNorm 与 GEMM 融合算子开发》

#c语言 #开发语言

深入 Ascend C 编程模型：从算子开发到性能优化实战

#c语言 #性能优化 #开发语言

深入 Ascend C：华为昇腾 AI 处理器的高性能算子开发利器

#pytorch #c语言 #人工智能

从零手撕一个 INT8 GEMM 算子：我在昇腾上跑通大模型量化推理的全过程（完整实践版）

#c语言 #性能优化 #开发语言

共 18 条

请选择