上进小菜猪个人主页

@m0_71592416

上进小菜猪

2023-05-11 15:10:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN自定义算子：攻克多模态数据稀疏性与动态性的性能堡垒

在当今海量的用户生成内容（UGC）处理中，文本数据（评论、弹幕、标题）与音频数据（语音识别结果、背景音乐特征）正成为AI模型训练与推理的重要输入源。这些数据经过特征提取（如NLP的Token Embedding、音频的MFCC/梅尔频谱特征）后，普遍呈现出一个关键特征：高维稀疏性。

#华为

面向昇腾 AI 的算子孪生调试体系：从问题复现到性能调优的全流程解析

华为 CANN 在 2025 版本中引入更完备的算子孪生调试（Twin Debug）机制，将编译器、执行框架、仿真工具与线下调试流程打通，使开发者在本地即可精准复现问题、分析瓶颈、进行算子级性能优化。本文将从工程视角深入剖析孪生调试的原理、价值与典型调试方式，构建开发者可直接使用的算子调试全流程知识体系。

#人工智能 #昇腾

昇腾AI实战：基于AscendCL的YOLOv5目标检测应用开发

动态Shape算子是提升AI模型适配性和灵活性的关键技术手段。CANN提供了丰富的接口和机制，从Shape推导、算子选择器、Kernel注册到内存管理，都为开发者提供了充分的控制能力。在开发过程中，合理设计Tiling策略、严格执行异常处理和内存管理，是保证算子高效稳定运行的核心。

#华为

从计算逻辑到可执行算子：基于华为 TBE DSL 的实战指南

本文面向工程实践者，系统讲解如何用华为昇腾（CANN）提供的 TBE DSL（Domain-Specific Language）快速实现自定义算子。文章从 DSL 的设计理念与工作流切入，逐步覆盖算子分析、计算实现、自动调度（Auto Schedule）原理、编译与验证、以及在精度/性能维度的优化技巧与常见陷阱。文中穿插端到端的 Add 算子示例，并给出工程化注意点与排错思路，帮助你把算子从“数学

#华为 #昇腾

从系统到底层：CANN开发环境搭建的工程化实践指南

在昇腾 CANN 体系中，环境是否正确往往决定你后续的整个开发流程是否顺利。无论你是准备在 AI Core 上编写自定义算子、要将模型转换为 OM 文件，还是准备调试端到端的训练/推理程序，环境搭建都是第一道必须跨过的门槛。

#昇腾

深入理解华为 CANN TIK：面向算子开发者的动态编程框架解析

在昇腾 AI 处理器生态中，算子是模型执行性能的最小基本单元。如何让算子既具备可控性，又能充分释放硬件的潜能，是算子开发者必须解决的核心问题。TIK（Tensor Iterator Kernel）正是在这样的背景下应运而生——它以 Python 的灵活性为入口，通过 DSL 编译体系连接到底层的 CCE 编译器，将高层描述转化为适配昇腾 AI Core 的高效二进制代码。

#华为 #昇腾 #架构

深入理解华为 CANN：TIK 算子开发的原理、流程与实战指南

在昇腾 AI 处理器生态中，TIK（Tensor Iterator Kernel）是算子开发者最常用也最核心的底层编程模型之一。它构建在 TBE（Tensor Boost Engine）之上，通过一套接近硬件执行模型的 Python DSL，开发者可以直接操控 Unified Buffer、L1 Buffer、AI Core 指令等底层资源，从而实现任意数据布局、任意算子逻辑的高性能计算。

#架构 #昇腾

深度解析华为 CANN 单算子调用：从原理到实战的完整指南

在越来越多的 AI 应用落地过程中，开发者会发现一个共同趋势：实际工程往往不仅包含模型推理，还涉及大量独立的数学运算、数据转换、图像处理等前后处理逻辑。如果这些部分也能直接利用昇腾 AI 处理器的算力，那么整体系统的性能才能真正被完全释放。

#网络 #昇腾

深度解析华为 CANN算子 TIK 数据搬运：从 GM 到 UB 的高性能数据流实践指南

在昇腾 AI 处理器上进行 TIK（Tensor Iterator Kernel）算子开发时，数据搬运是最基础、也是最容易影响性能的环节。算子能否高效运行，很大程度上取决于开发者是否理解 GM（Global Memory）与 UB（Unified Buffer）之间的数据流模式、对齐要求、搬运粒度以及跨循环的计算布局。

#华为 #昇腾

深入理解并实现一个高性能的华为 CANN Matmul 算子：从架构机制到工程优化的完整实践

矩阵乘法（Matmul）是深度学习计算图中最核心、最昂贵的算子之一。无论是 Transformer 的注意力，CNN 的全连接层，还是大模型中的每一次前向与后向传播，本质上都由大量的 GEMM（General Matrix Multiplication）堆叠而成。在 CPU 上，你可能只需要调用 BLAS；在 GPU 上，你可以依赖 cuBLAS；但在昇腾平台上，如果你想真正理解性能的来源，或者为

#架构 #昇腾

共 91 条

请选择