logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾算子调试与性能分析:从问题定位到效率拉满

调试优先使用 “日志 + CPU 模拟”,复杂问题用 Ascend Debugger;性能分析以 Ascend Profiler 为核心,重点关注 AI Core 利用率和内存带宽;优化需 “对症下药”:内存瓶颈优化数据访问,计算瓶颈充分利用硬件单元。

昇腾算子开发环境全解析:从 CPU 到 NPU 的搭建与优化

本文详细解析了昇腾算子开发的两类环境 ——CPU 纯开发环境和 NPU 开发 + 运行环境的搭建流程、验证方法及优化建议。在实际学习中,建议先在 CPU 环境中完成算子的逻辑开发与调试,再迁移到 NPU 环境中进行性能测试与优化,形成 “逻辑验证 - 性能调优” 的开发闭环。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力

昇腾 Add 算子全解析:从基础实现到性能优化

根据算子特性选择合适的硬件单元,并通过内存优化、并行策略提升性能。Add 算子的优化思路可扩展到其他基础算子(如 Sub、Mul),而 Cube 单元的 “非常规应用” 也为复杂算子开发提供了启发 —— 硬件单元的潜力往往超出其设计初衷,需要开发者灵活运用。

【昇腾算子】从AI到算子:Ascend C初级学习路径全解析

Ascend C是昇腾算子开发的核心工具链,需从技术生态与架构层面深入理解。CANN与Ascend C的关系:CANN(Compute Architecture for Neural Networks)是昇腾的异构计算架构,而Ascend C是基于CANN的算子开发语言,为开发者提供了直接操控AI Core的能力。昇腾AI处理器架构解析芯片级:基于SoC(系统级芯片)设计,集成CPU、AI Cor

【昇腾进阶】Ascend C算子开发:从Add算子到工程化实践

在掌握算子开发基础后,进阶学习需聚焦。本文以“Add算子”为线索,深入解析Ascend C进阶开发的核心知识点。

昇腾 Add 算子全解析:从基础实现到性能优化

根据算子特性选择合适的硬件单元,并通过内存优化、并行策略提升性能。Add 算子的优化思路可扩展到其他基础算子(如 Sub、Mul),而 Cube 单元的 “非常规应用” 也为复杂算子开发提供了启发 —— 硬件单元的潜力往往超出其设计初衷,需要开发者灵活运用。

昇腾算子调试与性能分析:从问题定位到效率拉满

调试优先使用 “日志 + CPU 模拟”,复杂问题用 Ascend Debugger;性能分析以 Ascend Profiler 为核心,重点关注 AI Core 利用率和内存带宽;优化需 “对症下药”:内存瓶颈优化数据访问,计算瓶颈充分利用硬件单元。

【昇腾算子】从AI到算子:Ascend C初级学习路径全解析

Ascend C是昇腾算子开发的核心工具链,需从技术生态与架构层面深入理解。CANN与Ascend C的关系:CANN(Compute Architecture for Neural Networks)是昇腾的异构计算架构,而Ascend C是基于CANN的算子开发语言,为开发者提供了直接操控AI Core的能力。昇腾AI处理器架构解析芯片级:基于SoC(系统级芯片)设计,集成CPU、AI Cor

【昇腾进阶】Ascend C算子开发:从Add算子到工程化实践

在掌握算子开发基础后,进阶学习需聚焦。本文以“Add算子”为线索,深入解析Ascend C进阶开发的核心知识点。

昇腾算子开发环境全解析:从 CPU 到 NPU 的搭建与优化

本文详细解析了昇腾算子开发的两类环境 ——CPU 纯开发环境和 NPU 开发 + 运行环境的搭建流程、验证方法及优化建议。在实际学习中,建议先在 CPU 环境中完成算子的逻辑开发与调试,再迁移到 NPU 环境中进行性能测试与优化,形成 “逻辑验证 - 性能调优” 的开发闭环。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力

    共 17 条
  • 1
  • 2
  • 请选择