SGWDXWB 个人主页

@SGWDXWB

SGWDXWB

2025-12-08 21:19:47 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Ascend C高性能算子开发实战——从理论到工业级部署

调用Ascend C实现的so库# 实现梯度回传通过这两篇文章的学习，相信你已经掌握了Ascend C的核心技能。从环境搭建到算子实现，再到性能优化，每一步都是通往高性能AI系统的必经之路。Ascend C不仅是编程语言，更是一种思维方式——贴近硬件、掌控细节、追求极致性能。在未来，随着大模型、边缘智能的发展，这类底层开发能力将变得愈发重要。愿你在AI的星辰大海中，乘风破浪，勇攀高峰！

#c语言 #开发语言

《Ascend C 实现高性能 Softmax 算子：数值稳定性与归约优化实战》

本文面向 AI 开发初学者和对昇腾生态感兴趣的工程师，系统介绍 Ascend C 编程模型的核心概念，包括内存管理、数据搬运、计算单元调度等，并通过一个完整的 “Vector Add” 示例，带领读者完成从环境配置、算子开发、编译到在 Atlas 设备上部署验证的全流程。全文约 6200 字。#endif本文通过一个最简单的加法算子，展示了 Ascend C 的基本开发范式。后续可尝试实现矩阵乘、

#c语言 #人工智能 #开发语言

深入 Ascend C 编程模型：从零构建高性能 AI 算子

昇腾 NPU 采用达芬奇架构（Da Vinci Architecture），其核心计算单元是AI Core。Cube Unit：用于执行 INT8/FP16 矩阵乘累加（MatMul）；：用于执行向量运算（如加法、乘法、激活函数）；：用于控制流和地址计算；：片上高速缓存（通常 2MB），用于暂存输入/输出数据；L1/L0 缓存：更小但更快的本地缓存。Ascend C 的设计正是围绕这些硬件单元展开

#人工智能

Ascend C 流水线并行实战：三阶段重叠计算与数据搬运》

/ 总数据分 4 块流水线并行是 Ascend C 高性能编程的核心范式。通过将数据搬运与计算重叠，可显著提升硬件利用率。本文以 Vector Add 为例，展示了三阶段流水线的完整实现，性能提升超 2 倍。在 NPU 编程中，等待是最昂贵的操作。学会用流水线“藏”掉等待时间，你就掌握了 Ascend C 的精髓！2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、

#c语言 #java #python

Ascend C高性能算子开发实战——从理论到工业级部署

#c语言 #开发语言

深入理解Ascend C编程语言——从入门到实践

Ascend C是华为基于其自研AI芯片架构（Da Vinci Core）推出的底层编程接口语言，属于ACL（Ascend Computing Language）生态体系的重要组成部分。它允许开发者直接编写运行在昇腾NPU（Neural Processing Unit）上的程序，绕过高级框架（如TensorFlow或PyTorch）的抽象层，从而获得极致的性能控制能力。与传统的CUDA或OpenC

#c语言 #开发语言

Ascend C高性能算子开发实战——从理论到工业级部署

#c语言 #开发语言

深入 Ascend C 编程模型：从零构建高性能 AI 算子

#人工智能

Ascend C 流水线并行实战：三阶段重叠计算与数据搬运》

#c语言 #java #python

Ascend C高性能算子开发实战——从理论到工业级部署

#c语言 #开发语言

共 21 条

请选择