logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《Ascend C 量化推理实战:INT8 自定义算子开发与精度补偿》

本文展示了 Ascend C 在量化推理中的强大能力。通过混合精度计算、精细 scale 管理、非线性函数优化,我们成功实现了高精度 INT8 RMSNorm+Silu 算子。该模式可推广至等复杂模块,为大模型端侧部署提供关键技术支撑。工程建议:结合进行自动化校准,再用 Ascend C 替换关键算子。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑

文章图片
#c语言#开发语言
《Ascend C 入门实战:从零构建高性能算子(上)—— 基础概念与向量加法详解》

硬件架构理解内存模型(Global vs UB)数据搬运与计算同步多核并行策略虽然例子简单,但其模式适用于绝大多数 Ascend C 算子开发。在下一篇文章中,我们将挑战更复杂的矩阵乘法(GEMM),深入 Cube Unit 的使用、分块策略(Tiling)和极致性能优化。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不

文章图片
#c语言#开发语言
《深入 Ascend C 高级特性:实现自定义 Softmax 算子与性能剖析》

通过本文,你不仅学会了 Softmax 的 Ascend C 实现,更掌握了多阶段 Kernel 设计数值稳定性处理和归约模式等高级技巧。这些能力可迁移到 LayerNorm、Attention 等复杂算子开发中。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中

文章图片
#c语言#开发语言
《基于 Ascend C 实现高性能图神经网络(GNN)消息传递算子》

{// 主逻辑本文首次系统展示了如何在 Ascend C 中高效实现 GNN 消息传递算子。通过分桶调度、显式索引加载、融合计算,我们克服了稀疏性带来的挑战。支持异构图(Heterogeneous Graph)利用Cube Unit 加速 Linear 层与MindSpore GNN 库深度集成代码开源2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑

文章图片
#人工智能
《Ascend C 量化推理实战:INT8 自定义算子开发与精度补偿》

本文展示了 Ascend C 在量化推理中的强大能力。通过混合精度计算、精细 scale 管理、非线性函数优化,我们成功实现了高精度 INT8 RMSNorm+Silu 算子。该模式可推广至等复杂模块,为大模型端侧部署提供关键技术支撑。工程建议:结合进行自动化校准,再用 Ascend C 替换关键算子。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑

文章图片
#c语言#开发语言
《大模型加速利器:用 Ascend C 实现高效自定义 Attention 算子》

本文实现的 Attention 算子已接近FlashAttention 的思想,且完全适配昇腾硬件。未来可进一步融合,构建整层融合 Kernel,实现 LLM 推理极致加速。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更

文章图片
#人工智能#机器学习#算法
《Ascend C 入门实战:从零构建高性能算子(上)—— 基础概念与向量加法详解》

硬件架构理解内存模型(Global vs UB)数据搬运与计算同步多核并行策略虽然例子简单,但其模式适用于绝大多数 Ascend C 算子开发。在下一篇文章中,我们将挑战更复杂的矩阵乘法(GEMM),深入 Cube Unit 的使用、分块策略(Tiling)和极致性能优化。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不

文章图片
#c语言#开发语言
《Ascend C 入门实战:从零构建高性能算子(上)—— 基础概念与向量加法详解》

硬件架构理解内存模型(Global vs UB)数据搬运与计算同步多核并行策略虽然例子简单,但其模式适用于绝大多数 Ascend C 算子开发。在下一篇文章中,我们将挑战更复杂的矩阵乘法(GEMM),深入 Cube Unit 的使用、分块策略(Tiling)和极致性能优化。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不

文章图片
#c语言#开发语言
《大模型加速利器:用 Ascend C 实现高效自定义 Attention 算子》

本文实现的 Attention 算子已接近FlashAttention 的思想,且完全适配昇腾硬件。未来可进一步融合,构建整层融合 Kernel,实现 LLM 推理极致加速。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更

文章图片
#人工智能#机器学习#算法
《大模型加速利器:用 Ascend C 实现高效自定义 Attention 算子》

本文实现的 Attention 算子已接近FlashAttention 的思想,且完全适配昇腾硬件。未来可进一步融合,构建整层融合 Kernel,实现 LLM 推理极致加速。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更

文章图片
#人工智能#机器学习#算法
    共 16 条
  • 1
  • 2
  • 请选择