2501_94342286 个人主页

@2501_94342286

2501_94342286

2025-12-14 19:25:35 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

实战 Ascend C：从零实现高性能自定义算子

Gaussian Error Linear Unit (GELU) 定义为：其中 erf 是误差函数，计算复杂。实际中常用近似：该近似包含乘法、加法、立方、tanh等操作，适合用 Vector Unit 实现。

#c语言 #开发语言

深入 Ascend C：华为昇腾 AI 芯片的高性能编程语言全解析

随着人工智能从“算法驱动”迈向“算力驱动”，专用 AI 芯片成为支撑大模型训练与推理的关键基础设施。华为昇腾（Ascend）系列 AI 处理器凭借其高能效比、大规模并行计算能力以及全栈软硬件协同设计，在全球 AI 芯片市场中占据重要地位。然而，要充分发挥昇腾芯片的极致性能，传统的 CUDA 或 OpenCL 编程模型已难以满足其异构计算架构的需求。为此，华为推出了—— 一种专为昇腾 AI 芯片设计

#c语言 #华为 #人工智能

《深入理解 Ascend C：昇腾 AI 处理器的高性能编程语言》

《昇腾AI处理器与AscendC编程语言深度解析》本文系统介绍了华为昇腾AI处理器及其专用编程语言AscendC的技术架构与应用实践。昇腾处理器采用达芬奇架构，包含立方体/向量/标量计算单元和统一缓冲区，AscendC作为基于C++扩展的领域特定语言，通过硬件感知的内存管理、内置高性能模板库和自动流水线调度等特性，在算子开发中实现性能与易用性的平衡。文章详细阐述了AscendC的核心编程模型、开

#c语言 #人工智能 #开发语言

Ascend C 高级实战：从算子开发到大模型加速

在第一篇文章中，我们系统学习了 Ascend C 的基础概念与编程模型。然而，真实世界中的 AI 应用（尤其是大语言模型、视觉 Transformer 等）对算子性能提出了更高要求。本文将聚焦目标是帮助开发者构建的昇腾 AI 应用。

#c语言 #人工智能 #开发语言

深入理解 Ascend C：昇腾 AI 芯片的高性能编程语言

LayerNorm 涉及均值、方差计算，需使用ReduceSum// 计算均值// 减均值、平方、再求和得方差...注意：Reduce 操作需对齐数据块大小（如 16/32 元素）。

#c语言 #人工智能 #开发语言

CANN：解码下一代AI计算的底层引擎

该编译器能够理解神经网络的语义，结合目标硬件的微架构特性（如计算单元数量、缓存大小、数据通路宽度等），生成高度定制化的、接近手写汇编性能的机器码。神经网络的核心运算是海量的矩阵乘加（GEMM），这是一种高度并行但计算密度极高的操作。CPU的设计哲学是“通用”和“顺序执行”，其有限的计算单元和复杂的控制逻辑使其在面对这种“简单而重复”的任务时效率低下，功耗高昂。CANN采用了一种分层的、模块化的设计

#人工智能

CANN：面向AI计算的全栈异构计算架构

HAL 是 CANN 与物理加速单元之间的桥梁。设备初始化与状态查询内存分配（显存/片上SRAM）任务提交与同步机制（事件、流、屏障）异常处理与错误恢复HAL 的关键作用在于实现“硬件无关性”。当新一代加速芯片发布时，只需更新 HAL 实现，上层软件无需任何改动即可获得新硬件支持，极大降低生态迁移成本。

#人工智能 #架构

CANN：面向AI计算的全栈异构计算架构

摘要：CANN（神经网络计算架构）是针对AI计算挑战提出的全栈异构计算解决方案。其采用"专用化+全栈协同"设计理念，覆盖硬件抽象层、运行时系统、图编译器、算子库和工具链五层架构，通过软硬协同优化解决算力需求爆炸、硬件效率不足和框架碎片化三大矛盾。CANN支持2000+优化算子，提供90%以上的硬件利用率，性能可达GPU方案的1.5-2倍，并实现"一次建模，多端部署&q

#人工智能 #架构

深入 Ascend C：华为昇腾 AI 芯片的高性能编程语言全解析

#c语言 #华为 #人工智能

实战 Ascend C：从零实现高性能自定义算子

#c语言 #开发语言

共 47 条

请选择