logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

我第一次跑通 CANN 模型时,踩了三个坑才成功

坑原因解决编译报 cannot find -lascend_cl没 source set_env.sh每次编译前先 source示例跑不通CANN 版本低于 8.0升级 CANNsetup_env.sh 执行失败网络问题用离线包或镜像源。

文章图片
#学习#深度学习#python
我第一次跑通 CANN 模型时,踩了三个坑才成功

坑原因解决编译报 cannot find -lascend_cl没 source set_env.sh每次编译前先 source示例跑不通CANN 版本低于 8.0升级 CANNsetup_env.sh 执行失败网络问题用离线包或镜像源。

文章图片
#学习#深度学习#python
我花了三天搞懂 GE 图引擎是怎么帮昇腾省显存的

之前帮一个团队优化 70B 模型推理,他们发现显存总是不够用。我看了眼 profiling 数据,发现问题出在计算图的组织方式上——GE 图引擎没把算子融合做进去。他们问我:“GE 不是 CANN 自带的吗?不是说开箱即用吗?不是。GE 的算子融合需要正确的图结构和配置参数。它不是默认开启的魔法,而是需要你理解它的工作原理才能用好的工具。这篇文章记录我搞懂 GE 图引擎的过程。没有教科书式的架构图

文章图片
#学习#python
我花了三天搞懂 GE 图引擎是怎么帮昇腾省显存的

之前帮一个团队优化 70B 模型推理,他们发现显存总是不够用。我看了眼 profiling 数据,发现问题出在计算图的组织方式上——GE 图引擎没把算子融合做进去。他们问我:“GE 不是 CANN 自带的吗?不是说开箱即用吗?不是。GE 的算子融合需要正确的图结构和配置参数。它不是默认开启的魔法,而是需要你理解它的工作原理才能用好的工具。这篇文章记录我搞懂 GE 图引擎的过程。没有教科书式的架构图

文章图片
#学习#python
我花了三天搞懂 GE 图引擎是怎么帮昇腾省显存的

之前帮一个团队优化 70B 模型推理,他们发现显存总是不够用。我看了眼 profiling 数据,发现问题出在计算图的组织方式上——GE 图引擎没把算子融合做进去。他们问我:“GE 不是 CANN 自带的吗?不是说开箱即用吗?不是。GE 的算子融合需要正确的图结构和配置参数。它不是默认开启的魔法,而是需要你理解它的工作原理才能用好的工具。这篇文章记录我搞懂 GE 图引擎的过程。没有教科书式的架构图

文章图片
#学习#python
CANN 学习资源指南:从入门到精通的完整路线

刚接触昇腾CANN那会,我被一堆概念砸懵了。AscendCL、Ascend C、算子开发、图编译、推理部署……每个词都认识,连在一起完全不知道从哪下手。后来我发现,CANN 开源社区有个专门的仓库叫 cann-learning-hub,把所有学习资源都整理好了。问题是,资源太多,新手反而不知道怎么走。今天就跟大家聊聊 CANN 的学习资源体系,帮你理清一条从入门到精通的路线。

文章图片
#学习
CANN 学习资源指南:从入门到精通的完整路线

刚接触昇腾CANN那会,我被一堆概念砸懵了。AscendCL、Ascend C、算子开发、图编译、推理部署……每个词都认识,连在一起完全不知道从哪下手。后来我发现,CANN 开源社区有个专门的仓库叫 cann-learning-hub,把所有学习资源都整理好了。问题是,资源太多,新手反而不知道怎么走。今天就跟大家聊聊 CANN 的学习资源体系,帮你理清一条从入门到精通的路线。

文章图片
#学习
CANN 学习资源指南:从入门到精通的完整路线

刚接触昇腾CANN那会,我被一堆概念砸懵了。AscendCL、Ascend C、算子开发、图编译、推理部署……每个词都认识,连在一起完全不知道从哪下手。后来我发现,CANN 开源社区有个专门的仓库叫 cann-learning-hub,把所有学习资源都整理好了。问题是,资源太多,新手反而不知道怎么走。今天就跟大家聊聊 CANN 的学习资源体系,帮你理清一条从入门到精通的路线。

文章图片
#学习
FlashAttention 在 CANN 里是怎么把显存砍到 O(N) 的

之前帮一个朋友优化 70B 模型推理,他的服务器配了 4 张卡,显存加起来 160GB,跑 4096 长度的上下文直接爆掉。他问我:“你这昇腾NPU不是号称高性能吗?怎么还是不够用?我看了眼他的代码,问题不在硬件,在注意力机制的计算方式上。传统注意力要把整个 N×NN×N 的注意力矩阵算出来、存到显存里,再做 softmax 和加权求和。序列一长,显存占用按平方涨。序列长度翻倍,显存翻四倍。

文章图片
#机器学习#深度学习#人工智能
FlashAttention 在 CANN 里是怎么把显存砍到 O(N) 的

之前帮一个朋友优化 70B 模型推理,他的服务器配了 4 张卡,显存加起来 160GB,跑 4096 长度的上下文直接爆掉。他问我:“你这昇腾NPU不是号称高性能吗?怎么还是不够用?我看了眼他的代码,问题不在硬件,在注意力机制的计算方式上。传统注意力要把整个 N×NN×N 的注意力矩阵算出来、存到显存里,再做 softmax 和加权求和。序列一长,显存占用按平方涨。序列长度翻倍,显存翻四倍。

文章图片
#机器学习#深度学习#人工智能
    共 58 条
  • 1
  • 2
  • 3
  • 6
  • 请选择