logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《Ascend C 高效内存管理实战:Unified Buffer 优化策略与 DMA 调度详解》

内存管理是 Ascend C 高性能编程的基石。UB 的 Banked 结构与对齐约束;异步 DMA 与双缓冲调度;多线程同步机制;分块累加与归约策略;开发者可将内存瓶颈降至最低,充分发挥昇腾芯片的计算潜力。本文提供的 RMSNorm 优化方案已在实际大模型推理中验证,吞吐提升2.1x。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专

文章图片
#spring#java#后端
深入 Ascend C 编程:从零构建高性能 AI 算子—— 卷积优化、Winograd 实现与全链路性能调优实战》

完整的 Im2Col + GEMM 代码框架Winograd 算法的数学原理与 Kernel 设计基于 msprof 的性能调优实战指南工业部署的工程化建议未来,随着CANN 对 TVM/AutoTVM 的集成以及Ascend C 高层抽象库(如 TBE)的演进,自定义算子开发将更加高效。但无论如何,理解底层硬件行为始终是性能优化的根基。2025年昇腾CANN训练营第二季,基于CANN开源开放全场

文章图片
#人工智能
《从零入门 Ascend C:手把手实现高性能向量加法自定义算子》

Ascend C 编程模型核心思想三级内存管理与数据搬运双缓冲流水线设计编译、部署与验证全流程掌握此基础后,可进一步挑战矩阵乘(GEMM)SoftmaxLayerNorm等复杂算子2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区

文章图片
#c语言#开发语言
《从零入门 Ascend C:手把手实现高性能向量加法自定义算子》

Ascend C 编程模型核心思想三级内存管理与数据搬运双缓冲流水线设计编译、部署与验证全流程掌握此基础后,可进一步挑战矩阵乘(GEMM)SoftmaxLayerNorm等复杂算子2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区

文章图片
#c语言#开发语言
《Ascend C 高效内存管理实战:Unified Buffer 优化策略与 DMA 调度详解》

内存管理是 Ascend C 高性能编程的基石。UB 的 Banked 结构与对齐约束;异步 DMA 与双缓冲调度;多线程同步机制;分块累加与归约策略;开发者可将内存瓶颈降至最低,充分发挥昇腾芯片的计算潜力。本文提供的 RMSNorm 优化方案已在实际大模型推理中验证,吞吐提升2.1x。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专

文章图片
#spring#java#后端
《Ascend C 高效内存管理实战:Unified Buffer 优化策略与 DMA 调度详解》

内存管理是 Ascend C 高性能编程的基石。UB 的 Banked 结构与对齐约束;异步 DMA 与双缓冲调度;多线程同步机制;分块累加与归约策略;开发者可将内存瓶颈降至最低,充分发挥昇腾芯片的计算潜力。本文提供的 RMSNorm 优化方案已在实际大模型推理中验证,吞吐提升2.1x。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专

文章图片
#spring#java#后端
深入 Ascend C 编程:从零构建高性能 AI 算子—— 卷积优化、Winograd 实现与全链路性能调优实战》

完整的 Im2Col + GEMM 代码框架Winograd 算法的数学原理与 Kernel 设计基于 msprof 的性能调优实战指南工业部署的工程化建议未来,随着CANN 对 TVM/AutoTVM 的集成以及Ascend C 高层抽象库(如 TBE)的演进,自定义算子开发将更加高效。但无论如何,理解底层硬件行为始终是性能优化的根基。2025年昇腾CANN训练营第二季,基于CANN开源开放全场

文章图片
#人工智能
深入 Ascend C 编程:从零构建高性能 AI 算子—— 卷积优化、Winograd 实现与全链路性能调优实战》

完整的 Im2Col + GEMM 代码框架Winograd 算法的数学原理与 Kernel 设计基于 msprof 的性能调优实战指南工业部署的工程化建议未来,随着CANN 对 TVM/AutoTVM 的集成以及Ascend C 高层抽象库(如 TBE)的演进,自定义算子开发将更加高效。但无论如何,理解底层硬件行为始终是性能优化的根基。2025年昇腾CANN训练营第二季,基于CANN开源开放全场

文章图片
#人工智能
从 Ascend C 到 MindSpore:自定义算子端到端集成实战

MindSpore 支持通过Custom OP机制集成第三方算子。↓↓↓:Host 侧调度逻辑;(GPU)或xxx.cpp(Ascend C);:算子定义(输入输出规格);:Python 接口。本文打通了的完整链路,使自定义算子真正可用、可训练、可部署。这套方法论适用于任何 Ascend C 算子(GEMM、Conv、LayerNorm 等),是昇腾生态开发者的必备技能。最佳实践算子命名遵循;输入

文章图片
#java#开发语言
从 Ascend C 到 MindSpore:自定义算子端到端集成实战

MindSpore 支持通过Custom OP机制集成第三方算子。↓↓↓:Host 侧调度逻辑;(GPU)或xxx.cpp(Ascend C);:算子定义(输入输出规格);:Python 接口。本文打通了的完整链路,使自定义算子真正可用、可训练、可部署。这套方法论适用于任何 Ascend C 算子(GEMM、Conv、LayerNorm 等),是昇腾生态开发者的必备技能。最佳实践算子命名遵循;输入

文章图片
#java#开发语言
到底了