lucywyf 个人主页

@lucywyf

lucywyf

2025-12-12 23:56:28 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

《面向大模型推理的 Ascend C 优化实战：算子融合、内存复用与 Zero-Copy 策略》

本文深入探讨了在大模型推理场景下，如何利用 Ascend C 实现LayerNorm-MatMul-GELU 三算子融合，并通过内存复用和Zero-Copy 策略，显著降低访存开销。实践表明，该方法可带来1.6x 以上的端到端加速，并为更复杂的融合（如 Attention 融合）奠定基础。未来方向支持动态 shape（通过 Runtime Tiling）与 FlashAttention 融合INT

#c语言 #开发语言

《面向大模型推理的 Ascend C 优化实战：算子融合、内存复用与 Zero-Copy 策略》

#c语言 #开发语言

《Ascend C 算子开发进阶：高效调试、性能剖析与优化实战》

{// ...本文展示了如何利用 Ascend C 的 Cube 接口实现高性能 GEMM，并通过算子融合进一步提升效率。掌握这些技术，你将能为 LLM、CV 等场景定制极致优化的推理引擎。代码仓库2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取

#c语言 #开发语言

《Ascend C 算子开发进阶：高效调试、性能剖析与优化实战》

#c语言 #开发语言

《深入 Ascend C：华为昇腾 AI 芯片的高性能算子开发实战指南》

首先，我们需要定义算子的输入输出规范。在 Ascend C 中，使用Kernel// 定义块大小（Block Dim）// AI Core 数量// Kernel 入口函数) {// 获取当前 AI Core ID// 计算每个 Core 处理的数据量// 边界检查// 分配 UB 内存（LocalTensor）// 释放 UB# 定义算子信息info = {# 加载 so 文件# 测试Ascen

#c语言 #华为 #人工智能

《深入 Ascend C：华为昇腾 AI 芯片的高性能算子开发实战指南》

#c语言 #华为 #人工智能

《深入 Ascend C：华为昇腾 AI 芯片的高性能算子开发实战指南》

#c语言 #华为 #人工智能

到底了