logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度解析CANN架构 - 从AI Core硬核到Ascend C的异构编程革命

预防优于调试// 防御性编程示例return;} \return;} \} while(0)#else#define ASSERT_VALID_TENSOR(tensor, length) // Release模式为空#endif代码清单8-1:防御性编程检查宏工具链熟练度掌握msprof高级过滤技巧,聚焦关键路径学习GDB条件断点和观察点快速定位变量异常使用自定义DumpTensor减少调试迭代

文章图片
#c语言#开发语言
Ascend C算子融合技术:以InternVL3中的自定义融合为例

本文基于昇腾CANN开发经验,深入解析算子融合技术在千亿参数多模态模型InternVL3中的应用。通过FlashAttention融合、FFN层融合等关键技术,结合AscendC实现和Atlas300I/VPro实测数据,展示了算子融合如何实现3-5倍训练加速。文章系统阐述了从融合模式识别、计算图重构到内存访问优化的全流程技术方案,并提供了自动化融合框架设计思路。实测数据显示,融合后内存占用减少5

文章图片
#人工智能#昇腾#CANN
MlaProlog算子全景透视-结构流程与依赖关系深度分析

本文深入探讨了昇腾AI处理器上MlaProlog算子的技术实现与优化策略。通过分析AscendNPU达芬奇架构特性,揭示了融合算子相比传统实现3-5倍的性能提升关键:三级流水线架构、双缓冲机制和计算单元协同。文章详细展示了从Python DSL描述到AscendC代码生成的完整流程,并提供了实战案例和性能调优技巧。特别指出下一代算子开发将向声明式编程、AI自动优化和跨平台统一抽象演进。最后介绍了昇

文章图片
#昇腾#CANN
构建基于 Ascend C 的自定义算子:以融合算子为例的端到端案例

本文系统解析基于AscendC开发AI芯片融合算子的技术方案。以LayerNorm+GEMM融合算子为例,详细阐述从算子原型设计、AscendC内核实现到PyTorch集成的全流程,包含5个架构图与实测性能数据。关键点:1)融合算子可提升32%性能,减少16MB显存占用;2)通过Tiling策略优化实现89%带宽利用率;3)企业案例显示推理延迟从52ms降至18ms。文章还分享了调试技巧、常见问题

文章图片
#昇腾#CANN
Ascend C算子融合技术:以InternVL3中的自定义融合为例

本文基于昇腾CANN开发经验,深入解析算子融合技术在千亿参数多模态模型InternVL3中的应用。通过FlashAttention融合、FFN层融合等关键技术,结合AscendC实现和Atlas300I/VPro实测数据,展示了算子融合如何实现3-5倍训练加速。文章系统阐述了从融合模式识别、计算图重构到内存访问优化的全流程技术方案,并提供了自动化融合框架设计思路。实测数据显示,融合后内存占用减少5

文章图片
#人工智能#昇腾#CANN
构建基于 Ascend C 的自定义算子:以融合算子为例的端到端案例

本文系统解析基于AscendC开发AI芯片融合算子的技术方案。以LayerNorm+GEMM融合算子为例,详细阐述从算子原型设计、AscendC内核实现到PyTorch集成的全流程,包含5个架构图与实测性能数据。关键点:1)融合算子可提升32%性能,减少16MB显存占用;2)通过Tiling策略优化实现89%带宽利用率;3)企业案例显示推理延迟从52ms降至18ms。文章还分享了调试技巧、常见问题

文章图片
#昇腾#CANN
Ascend C算子开发Debug技巧深度解析与实战指南

本文系统介绍了昇腾AI处理器开发中的高效调试方法论。基于CANN调试工具链,提出CPU/NPU孪生调试架构,通过正交组合算法自动生成测试用例,实现算子开发效率3-5倍的提升。文章详细解析了两段式调试体系设计原理,提供完整的Add算子调试示例和五步调试法,并总结了内存对齐错误等十大常见问题解决方案。通过企业级矩阵乘法案例,展示了性能优化从32%到85%的提升过程。最后展望了AI驱动调试、云原生平台等

文章图片
#开发语言#昇腾#CANN +1
深度解析CANN架构 - 从AI Core硬核到Ascend C的异构编程革命

预防优于调试// 防御性编程示例return;} \return;} \} while(0)#else#define ASSERT_VALID_TENSOR(tensor, length) // Release模式为空#endif代码清单8-1:防御性编程检查宏工具链熟练度掌握msprof高级过滤技巧,聚焦关键路径学习GDB条件断点和观察点快速定位变量异常使用自定义DumpTensor减少调试迭代

文章图片
#c语言#开发语言
面向未来:Ascend C 算子开发的性能分析与持续优化方法论

本文系统阐述了AscendC算子工程的创建流程与架构设计,涵盖从原型定义到编译部署的全链路开发。重点分析了标准算子工程的分层架构(Host/Kernel分离)与异构编译原理,通过Matmul等案例详细解析工程模板选择、目录结构设计及构建系统实现。文章还分享了企业级开发经验,包括多算子协同管理、依赖控制与CI/CD实践,并针对常见问题提供解决方案。特别强调工程化能力对生产级算子开发的关键作用,指出清

文章图片
#开发语言#昇腾#CANN +1
面向未来:Ascend C 算子开发的性能分析与持续优化方法论

本文系统阐述了AscendC算子工程的创建流程与架构设计,涵盖从原型定义到编译部署的全链路开发。重点分析了标准算子工程的分层架构(Host/Kernel分离)与异构编译原理,通过Matmul等案例详细解析工程模板选择、目录结构设计及构建系统实现。文章还分享了企业级开发经验,包括多算子协同管理、依赖控制与CI/CD实践,并针对常见问题提供解决方案。特别强调工程化能力对生产级算子开发的关键作用,指出清

文章图片
#开发语言#昇腾#CANN +1
    共 25 条
  • 1
  • 2
  • 3
  • 请选择