logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《突破稠密计算瓶颈:基于 Ascend C 的稀疏矩阵乘(SpMM)高性能实现》

给定稀疏权重矩阵 W∈RM×K(稀疏),激活矩阵 X∈RK×N(稠密),输出 Y=W⋅X∈RM×N。values:非零元素值(FP16):对应列号(INT32)row_ptr:每行起始偏移(INT32)[3, 0, 4]]在昇腾 NPU 上,稀疏计算不仅是可行的,更是高效的。通过 Ascend C 手写 SpMM 算子,我们成功将大模型推理推向更高能效比的新阶段。支持结构化稀疏(如 2:4 Spa

文章图片
#c语言#矩阵#开发语言
《Ascend C 高级优化实战:实现高性能卷积算子》

int batch;int kH, kW;通过 Im2Col + GEMM 架构,我们成功在 Ascend C 中实现了高性能卷积算子。虽然开发复杂度高,但掌握了这一模式后,可快速迁移到其他线性算子(如 Linear、BatchMatmul)。关键经验数据布局决定性能:尽量减少非连续访问Cube 是性能核心:确保 GEMM 分块对齐多核协同:合理划分任务避免负载不均Ascend C 是一把“双刃剑

文章图片
#c语言#开发语言
深入昇腾 Ascend 910B 架构与 MindSpore 开发实战:从模型训练到推理部署全流程详解

使用 MindSpore 提供的昇腾 Ascend 910B 配合 MindSpore 和 CANN,提供了一套完整的国产 AI 开发生态。从模型训练到推理部署,开发者可以充分利用其高算力、低延迟、高能效的优势。随着生态的不断完善,昇腾正成为大模型时代不可或缺的基础设施。附:完整代码仓库GitHub:2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、

文章图片
#人工智能
《深入 Ascend C 编程模型:从零构建高性能算子》

我们将实现一个AddCustom算子,功能为C = A + B,但使用 Ascend C 优化内存访问与计算。Ascend C 为昇腾开发者提供了接近硬件的编程能力,虽学习曲线陡峭,但性能收益显著。未来,随着 CANN 和 MindSpore 的演进,Ascend C 将支持更多高级特性(如自动分块、AI 编译优化),降低开发门槛。建议从简单算子入手(Add、Relu)善用 Profiling 工

文章图片
#c语言#开发语言
深入昇腾 Ascend 910B 架构与 MindSpore 开发实战:从模型训练到推理部署全流程详解

使用 MindSpore 提供的昇腾 Ascend 910B 配合 MindSpore 和 CANN,提供了一套完整的国产 AI 开发生态。从模型训练到推理部署,开发者可以充分利用其高算力、低延迟、高能效的优势。随着生态的不断完善,昇腾正成为大模型时代不可或缺的基础设施。附:完整代码仓库GitHub:2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、

文章图片
#人工智能
《Ascend C 高级优化实战:实现高性能卷积算子》

int batch;int kH, kW;通过 Im2Col + GEMM 架构,我们成功在 Ascend C 中实现了高性能卷积算子。虽然开发复杂度高,但掌握了这一模式后,可快速迁移到其他线性算子(如 Linear、BatchMatmul)。关键经验数据布局决定性能:尽量减少非连续访问Cube 是性能核心:确保 GEMM 分块对齐多核协同:合理划分任务避免负载不均Ascend C 是一把“双刃剑

文章图片
#c语言#开发语言
《大模型推理流水线的艺术:用 Ascend C 构建 0 停顿的多阶段推理引擎》

大模型推理不是“跑通就行”,而是系统工程的艺术。通过 Ascend C 的细粒度控制,我们得以打破 Prefill-Decode 的壁垒,构建真正高效的推理流水线。这不仅是技术突破,更是昇腾生态走向成熟的标志。未来方向:支持多模态输入、Speculative Decoding、Continuous Batching。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列

文章图片
#c语言#开发语言
《突破稠密计算瓶颈:基于 Ascend C 的稀疏矩阵乘(SpMM)高性能实现》

给定稀疏权重矩阵 W∈RM×K(稀疏),激活矩阵 X∈RK×N(稠密),输出 Y=W⋅X∈RM×N。values:非零元素值(FP16):对应列号(INT32)row_ptr:每行起始偏移(INT32)[3, 0, 4]]在昇腾 NPU 上,稀疏计算不仅是可行的,更是高效的。通过 Ascend C 手写 SpMM 算子,我们成功将大模型推理推向更高能效比的新阶段。支持结构化稀疏(如 2:4 Spa

文章图片
#c语言#矩阵#开发语言
深入昇腾 Ascend 910B 架构与 MindSpore 开发实战:从模型训练到推理部署全流程详解

使用 MindSpore 提供的昇腾 Ascend 910B 配合 MindSpore 和 CANN,提供了一套完整的国产 AI 开发生态。从模型训练到推理部署,开发者可以充分利用其高算力、低延迟、高能效的优势。随着生态的不断完善,昇腾正成为大模型时代不可或缺的基础设施。附:完整代码仓库GitHub:2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、

文章图片
#人工智能
《突破稠密计算瓶颈:基于 Ascend C 的稀疏矩阵乘(SpMM)高性能实现》

给定稀疏权重矩阵 W∈RM×K(稀疏),激活矩阵 X∈RK×N(稠密),输出 Y=W⋅X∈RM×N。values:非零元素值(FP16):对应列号(INT32)row_ptr:每行起始偏移(INT32)[3, 0, 4]]在昇腾 NPU 上,稀疏计算不仅是可行的,更是高效的。通过 Ascend C 手写 SpMM 算子,我们成功将大模型推理推向更高能效比的新阶段。支持结构化稀疏(如 2:4 Spa

文章图片
#c语言#矩阵#开发语言
    共 20 条
  • 1
  • 2
  • 请选择