2501_94642174 个人主页

@2501_94642174

2501_94642174

2025-12-14 20:10:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾 NPU 开发者的第一站：cann-learning-hub 模块与学习路径指南

昇腾 NPU 的开发者和研究者有个共同感受：前期环境配置阶段最难熬——装 CANN、配驱动、解决各种依赖冲突——熬过去之后，反而不知道下一步该干什么。文档太多，到处都是。昇腾官网有文档，GitHub 有各个仓库的 README，CANN Toolkit 里也内置了一些指南。分散在七八个地方，没有一条清晰的学习路径。不少人装好 CANN 之后，在这一步就卡住了，想做点实际的事情但不知道从哪下手。ca

#学习

昇腾 NPU 开发者的第一站：cann-learning-hub 模块与学习路径指南

#学习

昇腾CANN生态里，这个仓库让大模型推理快得离谱：ascend-transformer-boost 仓库概览

帮朋友调一个 Qwen2.5-7B 推理服务，服务器上跑的是昇腾 NPU。对方写的推理代码里逐个调用 Attention 算子、FFN 算子、LayerNorm 算子……加起来十几行，每次请求要跑 200 多毫秒。换了一个写法，改成调用 ascend-transformer-boost（简称 ATB），同样的模型、同样的输入，延迟直接降到 60 毫秒，吞吐量涨了 3 倍多。对方愣了半天，问"这仓库

#transformer #android #深度学习

昇腾CANN生态里，这个仓库让大模型推理快得离谱：ascend-transformer-boost 仓库概览

#transformer #android #深度学习

昇腾CANN生态里，这个仓库让大模型推理快得离谱：ascend-transformer-boost 仓库概览

#transformer #android #深度学习

昇腾CANN生态里，这个仓库让大模型推理快得离谱：ascend-transformer-boost 仓库概览

#transformer #android #深度学习

catlass 算子实战调优：在昇腾 NPU 上榨干 GEMM 性能

GEMM（矩阵乘法）是深度学习里最核心的算子，占大模型推理 80%+ 的计算时间。昇腾 NPU 的 Cube 单元（矩阵计算单元）理论算力很高（昇腾 910 有 256 TFLOPS FP16），但实际写出来的 GEMM 算子往往只能跑到理论峰值的 30-50%。catlass 是昇腾 CANN 开源社区的算子模板库，类似 NVIDIA 的 CUTLASS。它提供了一套"算子模板"，你填参数（数据

#开发语言

catlass 算子实战调优：在昇腾 NPU 上榨干 GEMM 性能

#开发语言

catlass 算子实战调优：在昇腾 NPU 上榨干 GEMM 性能

#开发语言

ops-transformer FlashAttention 算子深度解析：从算法到 Ascend C 实现

FlashAttention 是这两年大模型推理优化里最重要的算法创新之一。它把标准 Attention 的 O(N²) 显存占用降到 O(N)，让长序列推理成为可能。ops-transformer 是昇腾 CANN 开源社区里的 AOL（Ascend Operator Library）算子库，里面实现了针对昇腾 NPU 达芬奇架构优化的 FlashAttention 算子。

#transformer #算法 #c语言

共 51 条

请选择