2401_89199769 个人主页

@2401_89199769

2401_89199769

2025-10-24 16:36:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Ascend C 算子工程从 0 到 1 搭建：工具使用与模块拆解

需提前编写算子原型文件（如），明确输入输出张量的参数信息，示例如下：json},],

从0到1掌握Ascend C算子工程开发方式

（如。

Ascend C 算子开发全流程实战：快速与标准模式深度对比

在昇腾 AI 芯片的算子开发中，Ascend C 提供两种核心开发流程，不同流程的适配场景与实现复杂度差异显著。本文结合实战案例，详细拆解两种流程的执行步骤、核心区别及选型建议，助力开发者高效完成算子开发。

Ascend C 中级认证核心考点：Kernel 类与 Tiling 结构体深度解析

本文围绕认证考点，详细讲解 Kernel 类的结构设计、Tiling 结构体的定义与使用，结合真题考点分析助力备考。掌握 Kernel 类的结构（如Init、Process、Compute方法），理解固定 / 动态 Shape 场景下的实现差异，能够编写符合规范的 Kernel 类代码。掌握 Tiling 结构体的定义规范，理解分块维度、分块数量等参数的含义，能够根据算子需求设计合理的分块规则。C

#c语言 #算法 #开发语言

Ascend C 动态 Shape 算子开发实战：从原理到代码实现

动态 Shape 算子指输入张量的 shape 可在一定范围内动态变化（如 N 维度支持 1~1024，H/W 维度支持 256~2048），算子通过 API 动态推导输入输出 shape，无需硬编码固定维度。分块大小自适应：根据输入 shape 动态调整分块大小（如小 shape 用 32×32 分块，大 shape 用 64×64 分块），平衡计算效率与内存占用。线程配置优化：根据分块大小动态

#c语言 #开发语言

Ascend C 编程模型与核函数基础

快速开发调试：聚焦 Sigmoid 算子 Kernel 核函数，流程为环境准备→Kernel 矩阵编程→直调验证→调试调优，快速验证算子功能。标准开发调试：全链路开发，流程为 CANN 环境部署→算子分析→工程创建→Kernel/Host 实现→编译部署→ST 测试→调用，适配生产场景。

#算法

Ascend C 矩阵算子开发与优化（以 Matmul 为例）

矩阵乘法（Matmul）是深度学习的核心算子，广泛应用于卷积神经网络（CNN）、Transformer、循环神经网络（RNN）等模型中，例如：Ascend C 矩阵算子开发需充分利用 AI Core 的 Cube 计算单元（专门用于矩阵运算加速），结合 Tiling 技术、Double Buffer 优化、指令优化等手段，实现高性能计算。矩阵乘法的数学公式为：若矩阵 A 为维度，矩阵 B 为维度，

#矩阵 #线性代数

Ascend C 算子开发基础：定义、场景与硬件架构

Ascend C 是 CANN 针对算子开发场景推出的编程语言，原生支持 C/C++ 标准规范，兼具开发效率与运行性能。基于 Ascend C 编写的算子程序，经编译器编译和运行时调度后，可在昇腾 AI 处理器上高效执行，帮助开发者基于昇腾硬件实现自定义创新算法，这类算子统称为Ascend C 算子。推理模型转换场景：将 TensorFlow、Caffe、ONNX 等第三方框架模型通过 ATC 工

#开发语言

Ascend C 硬件架构抽象与编程范式

数学逻辑：明确简化版 Conv2d 的卷积计算规则（如单卷积核、步长为 1），锁定输入输出张量属性（输入 shape [N,C,H,W]、卷积核 shape [K,K]、输出 shape [N,1,H-K+1,W-K+1]）。内存与并行规划：分析 Local Memory 与 Global Memory 的数据读写策略，设计并行计算任务拆分方案，处理数据依赖。

#开发语言

Ascend C Tiling 技术深度解析：从原理到实战（含固定 / 动态 Shape 实现）

定义 Tiling 结构体：描述分块规则，示例代码如下：c运行// H维度分块大小// W维度分块大小// 总分块数量实现 Tiling 函数：根据输入张量 shape 推导分块参数，适配固定 / 动态 Shape 场景：c运行// 获取输入张量shape// 固定Shape场景：直接指定分块大小// 动态Shape场景：根据输入shape动态计算分块数量算子注册：将 Tiling 函数与算子绑定

共 50 条

请选择