
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
坑原因解决编译报 cannot find -lascend_cl没 source set_env.sh每次编译前先 source示例跑不通CANN 版本低于 8.0升级 CANNsetup_env.sh 执行失败网络问题用离线包或镜像源。

坑原因解决编译报 cannot find -lascend_cl没 source set_env.sh每次编译前先 source示例跑不通CANN 版本低于 8.0升级 CANNsetup_env.sh 执行失败网络问题用离线包或镜像源。

之前帮一个团队优化 70B 模型推理,他们发现显存总是不够用。我看了眼 profiling 数据,发现问题出在计算图的组织方式上——GE 图引擎没把算子融合做进去。他们问我:“GE 不是 CANN 自带的吗?不是说开箱即用吗?不是。GE 的算子融合需要正确的图结构和配置参数。它不是默认开启的魔法,而是需要你理解它的工作原理才能用好的工具。这篇文章记录我搞懂 GE 图引擎的过程。没有教科书式的架构图

之前帮一个团队优化 70B 模型推理,他们发现显存总是不够用。我看了眼 profiling 数据,发现问题出在计算图的组织方式上——GE 图引擎没把算子融合做进去。他们问我:“GE 不是 CANN 自带的吗?不是说开箱即用吗?不是。GE 的算子融合需要正确的图结构和配置参数。它不是默认开启的魔法,而是需要你理解它的工作原理才能用好的工具。这篇文章记录我搞懂 GE 图引擎的过程。没有教科书式的架构图

之前帮一个团队优化 70B 模型推理,他们发现显存总是不够用。我看了眼 profiling 数据,发现问题出在计算图的组织方式上——GE 图引擎没把算子融合做进去。他们问我:“GE 不是 CANN 自带的吗?不是说开箱即用吗?不是。GE 的算子融合需要正确的图结构和配置参数。它不是默认开启的魔法,而是需要你理解它的工作原理才能用好的工具。这篇文章记录我搞懂 GE 图引擎的过程。没有教科书式的架构图

刚接触昇腾CANN那会,我被一堆概念砸懵了。AscendCL、Ascend C、算子开发、图编译、推理部署……每个词都认识,连在一起完全不知道从哪下手。后来我发现,CANN 开源社区有个专门的仓库叫 cann-learning-hub,把所有学习资源都整理好了。问题是,资源太多,新手反而不知道怎么走。今天就跟大家聊聊 CANN 的学习资源体系,帮你理清一条从入门到精通的路线。

刚接触昇腾CANN那会,我被一堆概念砸懵了。AscendCL、Ascend C、算子开发、图编译、推理部署……每个词都认识,连在一起完全不知道从哪下手。后来我发现,CANN 开源社区有个专门的仓库叫 cann-learning-hub,把所有学习资源都整理好了。问题是,资源太多,新手反而不知道怎么走。今天就跟大家聊聊 CANN 的学习资源体系,帮你理清一条从入门到精通的路线。

刚接触昇腾CANN那会,我被一堆概念砸懵了。AscendCL、Ascend C、算子开发、图编译、推理部署……每个词都认识,连在一起完全不知道从哪下手。后来我发现,CANN 开源社区有个专门的仓库叫 cann-learning-hub,把所有学习资源都整理好了。问题是,资源太多,新手反而不知道怎么走。今天就跟大家聊聊 CANN 的学习资源体系,帮你理清一条从入门到精通的路线。

之前帮一个朋友优化 70B 模型推理,他的服务器配了 4 张卡,显存加起来 160GB,跑 4096 长度的上下文直接爆掉。他问我:“你这昇腾NPU不是号称高性能吗?怎么还是不够用?我看了眼他的代码,问题不在硬件,在注意力机制的计算方式上。传统注意力要把整个 N×NN×N 的注意力矩阵算出来、存到显存里,再做 softmax 和加权求和。序列一长,显存占用按平方涨。序列长度翻倍,显存翻四倍。

之前帮一个朋友优化 70B 模型推理,他的服务器配了 4 张卡,显存加起来 160GB,跑 4096 长度的上下文直接爆掉。他问我:“你这昇腾NPU不是号称高性能吗?怎么还是不够用?我看了眼他的代码,问题不在硬件,在注意力机制的计算方式上。传统注意力要把整个 N×NN×N 的注意力矩阵算出来、存到显存里,再做 softmax 和加权求和。序列一长,显存占用按平方涨。序列长度翻倍,显存翻四倍。








