
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
昇腾 NPU 的开发者和研究者有个共同感受:前期环境配置阶段最难熬——装 CANN、配驱动、解决各种依赖冲突——熬过去之后,反而不知道下一步该干什么。文档太多,到处都是。昇腾官网有文档,GitHub 有各个仓库的 README,CANN Toolkit 里也内置了一些指南。分散在七八个地方,没有一条清晰的学习路径。不少人装好 CANN 之后,在这一步就卡住了,想做点实际的事情但不知道从哪下手。ca

昇腾 NPU 的开发者和研究者有个共同感受:前期环境配置阶段最难熬——装 CANN、配驱动、解决各种依赖冲突——熬过去之后,反而不知道下一步该干什么。文档太多,到处都是。昇腾官网有文档,GitHub 有各个仓库的 README,CANN Toolkit 里也内置了一些指南。分散在七八个地方,没有一条清晰的学习路径。不少人装好 CANN 之后,在这一步就卡住了,想做点实际的事情但不知道从哪下手。ca

帮朋友调一个 Qwen2.5-7B 推理服务,服务器上跑的是昇腾 NPU。对方写的推理代码里逐个调用 Attention 算子、FFN 算子、LayerNorm 算子……加起来十几行,每次请求要跑 200 多毫秒。换了一个写法,改成调用 ascend-transformer-boost(简称 ATB),同样的模型、同样的输入,延迟直接降到 60 毫秒,吞吐量涨了 3 倍多。对方愣了半天,问"这仓库

帮朋友调一个 Qwen2.5-7B 推理服务,服务器上跑的是昇腾 NPU。对方写的推理代码里逐个调用 Attention 算子、FFN 算子、LayerNorm 算子……加起来十几行,每次请求要跑 200 多毫秒。换了一个写法,改成调用 ascend-transformer-boost(简称 ATB),同样的模型、同样的输入,延迟直接降到 60 毫秒,吞吐量涨了 3 倍多。对方愣了半天,问"这仓库

帮朋友调一个 Qwen2.5-7B 推理服务,服务器上跑的是昇腾 NPU。对方写的推理代码里逐个调用 Attention 算子、FFN 算子、LayerNorm 算子……加起来十几行,每次请求要跑 200 多毫秒。换了一个写法,改成调用 ascend-transformer-boost(简称 ATB),同样的模型、同样的输入,延迟直接降到 60 毫秒,吞吐量涨了 3 倍多。对方愣了半天,问"这仓库

帮朋友调一个 Qwen2.5-7B 推理服务,服务器上跑的是昇腾 NPU。对方写的推理代码里逐个调用 Attention 算子、FFN 算子、LayerNorm 算子……加起来十几行,每次请求要跑 200 多毫秒。换了一个写法,改成调用 ascend-transformer-boost(简称 ATB),同样的模型、同样的输入,延迟直接降到 60 毫秒,吞吐量涨了 3 倍多。对方愣了半天,问"这仓库

GEMM(矩阵乘法)是深度学习里最核心的算子,占大模型推理 80%+ 的计算时间。昇腾 NPU 的 Cube 单元(矩阵计算单元)理论算力很高(昇腾 910 有 256 TFLOPS FP16),但实际写出来的 GEMM 算子往往只能跑到理论峰值的 30-50%。catlass 是昇腾 CANN 开源社区的算子模板库,类似 NVIDIA 的 CUTLASS。它提供了一套"算子模板",你填参数(数据

GEMM(矩阵乘法)是深度学习里最核心的算子,占大模型推理 80%+ 的计算时间。昇腾 NPU 的 Cube 单元(矩阵计算单元)理论算力很高(昇腾 910 有 256 TFLOPS FP16),但实际写出来的 GEMM 算子往往只能跑到理论峰值的 30-50%。catlass 是昇腾 CANN 开源社区的算子模板库,类似 NVIDIA 的 CUTLASS。它提供了一套"算子模板",你填参数(数据

GEMM(矩阵乘法)是深度学习里最核心的算子,占大模型推理 80%+ 的计算时间。昇腾 NPU 的 Cube 单元(矩阵计算单元)理论算力很高(昇腾 910 有 256 TFLOPS FP16),但实际写出来的 GEMM 算子往往只能跑到理论峰值的 30-50%。catlass 是昇腾 CANN 开源社区的算子模板库,类似 NVIDIA 的 CUTLASS。它提供了一套"算子模板",你填参数(数据

FlashAttention 是这两年大模型推理优化里最重要的算法创新之一。它把标准 Attention 的 O(N²) 显存占用降到 O(N),让长序列推理成为可能。ops-transformer 是昇腾 CANN 开源社区里的 AOL(Ascend Operator Library)算子库,里面实现了针对昇腾 NPU 达芬奇架构优化的 FlashAttention 算子。








