logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾 NPU 开发者的第一站:cann-learning-hub 模块与学习路径指南

昇腾 NPU 的开发者和研究者有个共同感受:前期环境配置阶段最难熬——装 CANN、配驱动、解决各种依赖冲突——熬过去之后,反而不知道下一步该干什么。文档太多,到处都是。昇腾官网有文档,GitHub 有各个仓库的 README,CANN Toolkit 里也内置了一些指南。分散在七八个地方,没有一条清晰的学习路径。不少人装好 CANN 之后,在这一步就卡住了,想做点实际的事情但不知道从哪下手。ca

文章图片
#学习
昇腾 NPU 开发者的第一站:cann-learning-hub 模块与学习路径指南

昇腾 NPU 的开发者和研究者有个共同感受:前期环境配置阶段最难熬——装 CANN、配驱动、解决各种依赖冲突——熬过去之后,反而不知道下一步该干什么。文档太多,到处都是。昇腾官网有文档,GitHub 有各个仓库的 README,CANN Toolkit 里也内置了一些指南。分散在七八个地方,没有一条清晰的学习路径。不少人装好 CANN 之后,在这一步就卡住了,想做点实际的事情但不知道从哪下手。ca

文章图片
#学习
昇腾CANN生态里,这个仓库让大模型推理快得离谱:ascend-transformer-boost 仓库概览

帮朋友调一个 Qwen2.5-7B 推理服务,服务器上跑的是昇腾 NPU。对方写的推理代码里逐个调用 Attention 算子、FFN 算子、LayerNorm 算子……加起来十几行,每次请求要跑 200 多毫秒。换了一个写法,改成调用 ascend-transformer-boost(简称 ATB),同样的模型、同样的输入,延迟直接降到 60 毫秒,吞吐量涨了 3 倍多。对方愣了半天,问"这仓库

文章图片
#transformer#android#深度学习
昇腾CANN生态里,这个仓库让大模型推理快得离谱:ascend-transformer-boost 仓库概览

帮朋友调一个 Qwen2.5-7B 推理服务,服务器上跑的是昇腾 NPU。对方写的推理代码里逐个调用 Attention 算子、FFN 算子、LayerNorm 算子……加起来十几行,每次请求要跑 200 多毫秒。换了一个写法,改成调用 ascend-transformer-boost(简称 ATB),同样的模型、同样的输入,延迟直接降到 60 毫秒,吞吐量涨了 3 倍多。对方愣了半天,问"这仓库

文章图片
#transformer#android#深度学习
昇腾CANN生态里,这个仓库让大模型推理快得离谱:ascend-transformer-boost 仓库概览

帮朋友调一个 Qwen2.5-7B 推理服务,服务器上跑的是昇腾 NPU。对方写的推理代码里逐个调用 Attention 算子、FFN 算子、LayerNorm 算子……加起来十几行,每次请求要跑 200 多毫秒。换了一个写法,改成调用 ascend-transformer-boost(简称 ATB),同样的模型、同样的输入,延迟直接降到 60 毫秒,吞吐量涨了 3 倍多。对方愣了半天,问"这仓库

文章图片
#transformer#android#深度学习
昇腾CANN生态里,这个仓库让大模型推理快得离谱:ascend-transformer-boost 仓库概览

帮朋友调一个 Qwen2.5-7B 推理服务,服务器上跑的是昇腾 NPU。对方写的推理代码里逐个调用 Attention 算子、FFN 算子、LayerNorm 算子……加起来十几行,每次请求要跑 200 多毫秒。换了一个写法,改成调用 ascend-transformer-boost(简称 ATB),同样的模型、同样的输入,延迟直接降到 60 毫秒,吞吐量涨了 3 倍多。对方愣了半天,问"这仓库

文章图片
#transformer#android#深度学习
catlass 算子实战调优:在昇腾 NPU 上榨干 GEMM 性能

GEMM(矩阵乘法)是深度学习里最核心的算子,占大模型推理 80%+ 的计算时间。昇腾 NPU 的 Cube 单元(矩阵计算单元)理论算力很高(昇腾 910 有 256 TFLOPS FP16),但实际写出来的 GEMM 算子往往只能跑到理论峰值的 30-50%。catlass 是昇腾 CANN 开源社区的算子模板库,类似 NVIDIA 的 CUTLASS。它提供了一套"算子模板",你填参数(数据

文章图片
#开发语言
catlass 算子实战调优:在昇腾 NPU 上榨干 GEMM 性能

GEMM(矩阵乘法)是深度学习里最核心的算子,占大模型推理 80%+ 的计算时间。昇腾 NPU 的 Cube 单元(矩阵计算单元)理论算力很高(昇腾 910 有 256 TFLOPS FP16),但实际写出来的 GEMM 算子往往只能跑到理论峰值的 30-50%。catlass 是昇腾 CANN 开源社区的算子模板库,类似 NVIDIA 的 CUTLASS。它提供了一套"算子模板",你填参数(数据

文章图片
#开发语言
catlass 算子实战调优:在昇腾 NPU 上榨干 GEMM 性能

GEMM(矩阵乘法)是深度学习里最核心的算子,占大模型推理 80%+ 的计算时间。昇腾 NPU 的 Cube 单元(矩阵计算单元)理论算力很高(昇腾 910 有 256 TFLOPS FP16),但实际写出来的 GEMM 算子往往只能跑到理论峰值的 30-50%。catlass 是昇腾 CANN 开源社区的算子模板库,类似 NVIDIA 的 CUTLASS。它提供了一套"算子模板",你填参数(数据

文章图片
#开发语言
ops-transformer FlashAttention 算子深度解析:从算法到 Ascend C 实现

FlashAttention 是这两年大模型推理优化里最重要的算法创新之一。它把标准 Attention 的 O(N²) 显存占用降到 O(N),让长序列推理成为可能。ops-transformer 是昇腾 CANN 开源社区里的 AOL(Ascend Operator Library)算子库,里面实现了针对昇腾 NPU 达芬奇架构优化的 FlashAttention 算子。

文章图片
#transformer#算法#c语言
    共 51 条
  • 1
  • 2
  • 3
  • 6
  • 请选择