He1452_ 个人主页

@He1452_

He1452_

2025-12-15 21:09:12 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

《Ascend C 高级优化：GELU、LayerNorm 实现与算子融合实战》

将多个逻辑算子合并为一个物理 Kernel，中间结果不写回 GM，全程驻留 UB。框架不支持性能不达标（Profiling 确认瓶颈）需要特殊数值行为（如自定义量化）2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取精美证书，完成社区任务更有机会赢

#c语言 #人工智能 #算法

《深入昇腾底层：Ascend C 编程模型与高性能算子开发实战》

成为突破性能天花板的关键路径。而针对昇腾 NPU，Ascend C 正是华为官方推荐的底层开发工具。📌。

#c语言 #开发语言

《Ascend C 编程初探：从零构建你的第一个算子》

本文旨在为初次接触华为昇腾（Ascend）AI处理器和 Ascend C 编程模型的开发者提供一份详尽的入门指南。我们将深入浅出地解析 Ascend C 的核心设计理念、关键抽象（如 Queue、Pipe、GlobalTensor 等），并通过一个完整的、从环境搭建到编译部署的“向量加法”算子开发实例，带领读者亲手体验在昇腾 NPU 上进行高性能计算编程的全流程。无论你是 AI 框架开发者、算法工

#c语言 #开发语言

《深入理解 Ascend C：华为昇腾 AI 芯片的高性能编程语言》

2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取精美证书，完成社区任务更有机会赢取华为手机，平板、开发板等大奖。报名链接:https://www.hiascend.com/developer/activities/cann20252。

#c语言 #华为 #人工智能

混合精度推理实战：用 CANN 实现 FP16/INT8 高效部署

典型结果：ResNet50 在 ImageNet 上 INT8 精度 ≈ 76.0%，仅比 FP32（76.2%）低 0.2%。：NLP 模型（如 BERT）对量化更敏感，建议使用 QAT（Quantization-Aware Training）后再部署。实测 YOLOv5s 吞吐提升约 1.8 倍，精度损失 < 0.5% mAP。加载该 OM 模型后，CANN 运行时会自动使用 FP16 计算单

#开发语言

使用 CANN Profiling 工具精准定位推理瓶颈

在 C++ 代码中，可插入自定义事件标记，便于在 Timeline 中定位业务逻辑段：cpp编辑// ... 图像预处理 ...这些标记会出现在 profiling 报告中，极大提升调试效率。小结：性能调优不是“黑盒猜测”，而是基于数据的科学工程。CANN 的 profiling 工具链为开发者提供了显微镜级别的洞察力。

#开发语言

CANN 编程入门：从零部署一个高性能推理应用

首先确保已安装 CANN 运行时及开发工具包（通常包含头文件acl/acl.h和动态库可通过以下命令验证：bash编辑注：路径可能因部署方式不同而变化，但核心头文件为acl.h。

#开发语言

深入解析CANN：面向AI原生计算的异构加速架构

CANN代表了AI计算架构从“通用适配”向“原生智能”的演进方向。它不仅是性能的提升，更是一种软硬协同、以AI工作负载为中心的设计哲学。随着大模型与边缘智能的普及，此类专用计算架构将成为下一代AI基础设施的标配。对于开发者而言，掌握CANN不仅意味着获得更强的算力工具，更是理解未来AI系统设计范式的关键一步。拥抱这一架构，即是站在智能计算浪潮的前沿。本文不涉及任何特定厂商信息，仅从技术角度解析CA

#架构

《深入昇腾底层：Ascend C 编程模型与高性能算子开发实战》

成为突破性能天花板的关键路径。而针对昇腾 NPU，Ascend C 正是华为官方推荐的底层开发工具。📌。

#c语言 #开发语言

《Ascend C 高级优化：GELU、LayerNorm 实现与算子融合实战》

#c语言 #人工智能 #算法

共 24 条

请选择