
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文通过 Depthwise Convolution 的完整实现,展示了 Ascend C 在复杂算子开发中的高级技巧。精细的内存规划(Tiling + 双缓冲);计算与搬运的流水线重叠;充分利用 Vector Unit 的向量化能力。掌握这些技能后,开发者可进一步挑战等核心算子,为大模型推理/训练提供极致加速。未来方向:结合 AutoTVM 或 Ansor 思想,实现 Ascend C 算子的自

本文展示了如何利用 Ascend C 的高级特性实现高性能算子融合。LayerNorm + GEMM 融合是大模型推理中的经典优化场景,类似思路还可用于等。未来,随着和Graph IR的成熟,开发者将能以更高抽象级别编写高效算子,进一步推动国产 AI 生态发展。提示:完整工程代码包含 Makefile、ACL 调用封装、PyTorch 绑定,可在 GitHub 获取。

Swish 是 Google 提出的激活函数:相比 ReLU,它在深层网络中表现更优,且平滑可导。我们将实现β=1.0 的 FP16 版本。本文打通了Ascend C → PyTorch → ONNX → OM 模型的全链路。掌握此流程,你即可在 PyTorch 生态中充分发挥昇腾 NPU 的定制化优势,为大模型推理加速铺平道路。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出

本文不仅实现了高性能 INT8 GEMM,更构建了从量化校准、算子开发到精度验证的完整闭环。通过 Per-Channel 量化与双缓冲流水线,我们在保持 0.8% 误差的同时,实现了2 倍吞吐提升与 2 倍内存压缩。在大模型推理时代,掌握此类低比特优化技术,将成为 AI 工程师的核心竞争力。实现 INT4 GEMM(通过 unpack 指令);集成到 vLLM 或 TensorRT-LLM 类框架

本文展示了如何利用 Ascend C 的高级特性实现高性能算子融合。LayerNorm + GEMM 融合是大模型推理中的经典优化场景,类似思路还可用于等。未来,随着和Graph IR的成熟,开发者将能以更高抽象级别编写高效算子,进一步推动国产 AI 生态发展。提示:完整工程代码包含 Makefile、ACL 调用封装、PyTorch 绑定,可在 GitHub 获取。

首先在 Host 端注册算子(略),重点在 Device 端 kernel 实现。) {// Kernel 主体Ascend C 是释放昇腾芯片算力的关键工具。通过显式控制内存搬运、计算流水与并行调度,开发者可编写出接近理论峰值性能的算子。本文通过 Conv3D 案例展示了从分块、双缓冲到向量化计算的完整流程。未来,随着 CANN 版本升级,Ascend C 将支持更多高级特性(如自动 tilin

Swish 是 Google 提出的激活函数:相比 ReLU,它在深层网络中表现更优,且平滑可导。我们将实现β=1.0 的 FP16 版本。本文打通了Ascend C → PyTorch → ONNX → OM 模型的全链路。掌握此流程,你即可在 PyTorch 生态中充分发挥昇腾 NPU 的定制化优势,为大模型推理加速铺平道路。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出

本文不仅实现了高性能 INT8 GEMM,更构建了从量化校准、算子开发到精度验证的完整闭环。通过 Per-Channel 量化与双缓冲流水线,我们在保持 0.8% 误差的同时,实现了2 倍吞吐提升与 2 倍内存压缩。在大模型推理时代,掌握此类低比特优化技术,将成为 AI 工程师的核心竞争力。实现 INT4 GEMM(通过 unpack 指令);集成到 vLLM 或 TensorRT-LLM 类框架

本文通过 Depthwise Convolution 的完整实现,展示了 Ascend C 在复杂算子开发中的高级技巧。精细的内存规划(Tiling + 双缓冲);计算与搬运的流水线重叠;充分利用 Vector Unit 的向量化能力。掌握这些技能后,开发者可进一步挑战等核心算子,为大模型推理/训练提供极致加速。未来方向:结合 AutoTVM 或 Ansor 思想,实现 Ascend C 算子的自

本文不仅实现了高性能 INT8 GEMM,更构建了从量化校准、算子开发到精度验证的完整闭环。通过 Per-Channel 量化与双缓冲流水线,我们在保持 0.8% 误差的同时,实现了2 倍吞吐提升与 2 倍内存压缩。在大模型推理时代,掌握此类低比特优化技术,将成为 AI 工程师的核心竞争力。实现 INT4 GEMM(通过 unpack 指令);集成到 vLLM 或 TensorRT-LLM 类框架








