2501_94656522 个人主页

@2501_94656522

2501_94656522

2025-12-15 23:07:23 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾AI极致优化：用Ascend C实现融合算子——LayerNorm + GELU 一体化高性能Kernel（含完整工程与性能分析）

算子融合是昇腾AI优化的核心手段之一。融合算子的数学与内存优化原理Ascend C中混合精度与UB管理技巧从Kernel开发到Python部署的全链路🌟记住：在昇腾世界里，每一次DDR访问都是昂贵的。你的目标，就是让数据尽可能在UB中“流动”起来。下一步行动建议尝试融合更多算子（如探索动态Shape下的Tiling策略参与昇腾社区贡献自定义算子库📚资源（模拟链接）官方文档：《Ascend C

#人工智能 #c语言 #开发语言

Ascend C深度解析：从零实现高性能AI算子开发（附完整代码）

华为昇腾AI处理器采用达芬奇架构，其计算单元由Cube计算单元、Vector计算单元和Scalar计算单元构成。

#c语言 #人工智能 #开发语言

昇腾AI自定义算子开发实战：用Ascend C实现高性能LayerNorm算子（附完整工程代码）

LayerNorm的数学本质与昇腾优化路径Ascend C中Reduce操作的高效实现自定义算子的完整开发-编译-部署流程Ascend C不仅是编程语言，更是连接算法与硬件的桥梁。当你能手写高性能算子时，你就真正站在了AI系统优化的最前沿。📌资源下载完整工程代码已开源至 [GitHub链接]（模拟）昇腾社区 - Ascend C开发指南动手试试吧！你的下一个大模型加速突破，可能就始于一行Asce

#人工智能 #c语言 #开发语言

昇腾AI高级编程：用Ascend C实现动态Shape支持的自定义Attention算子（含FlashAttention思想与完整工程

FlashAttention核心思想在昇腾上的实现Ascend C中动态Shape支持技巧高效Attention算子的完整开发流程🔮未来方向利用昇腾910B的稀疏计算单元加速稀疏Attention结合支持超长上下文开发量化版Attention在大模型时代，每一个毫秒的优化，都是通往AGI的关键一步。📚资源动手优化你的Attention吧！昇腾的世界，由你定义性能极限。

#人工智能 #c语言 #机器学习

深入昇腾AI开发：Ascend C从入门到实战（附完整算子开发案例）

public:private:场景建议小算子（<1KB）使用 3 级 API（如复杂控制流拆分为多个 Kernel，避免分支预测失败大张量处理Tile 大小设为 256 的倍数（对齐 Cube 单元）内存复用使用及时释放 UB精度要求高优先使用 FP16 + Accumulate to FP32Ascend C 虽然学习曲线较陡，但它是释放昇腾芯片全部性能的关键钥匙。Ascend C 的内存模型与

#人工智能 #c语言 #开发语言

昇腾AI极致优化：用Ascend C实现融合算子——LayerNorm + GELU 一体化高性能Kernel（含完整工程与性能分析）

#人工智能 #c语言 #开发语言

Ascend C深度解析：从零实现高性能AI算子开发（附完整代码）

华为昇腾AI处理器采用达芬奇架构，其计算单元由Cube计算单元、Vector计算单元和Scalar计算单元构成。

#c语言 #人工智能 #开发语言

深入昇腾AI开发：Ascend C从入门到实战（附完整算子开发案例）

#人工智能 #c语言 #开发语言

昇腾AI高级编程：用Ascend C实现动态Shape支持的自定义Attention算子（含FlashAttention思想与完整工程

#人工智能 #c语言 #机器学习

昇腾AI高级编程：用Ascend C实现动态Shape支持的自定义Attention算子（含FlashAttention思想与完整工程

#人工智能 #c语言 #机器学习

共 21 条

请选择