logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN手把手实战:从cann-learning-hub上手ops-transformer

你遇到过一个场景吗——模型在GPU上跑得好好的,搬到昇腾NPU上,Attention层直接Segmentation Fault。报错信息只有一行core dump,百度Google都搜不到。你翻遍了官方文档,最后在cann-learning-hub的一个讨论帖里,看到有人把ops-transformer的FlashAttention接入代码贴了出来。这篇文章就是那个帖子的完整版。

#transformer#深度学习#人工智能
昇腾CANN手把手实战:从cann-learning-hub上手ops-transformer

你遇到过一个场景吗——模型在GPU上跑得好好的,搬到昇腾NPU上,Attention层直接Segmentation Fault。报错信息只有一行core dump,百度Google都搜不到。你翻遍了官方文档,最后在cann-learning-hub的一个讨论帖里,看到有人把ops-transformer的FlashAttention接入代码贴了出来。这篇文章就是那个帖子的完整版。

#transformer#深度学习#人工智能
昇腾CANN手把手实战:从cann-learning-hub上手ops-transformer

你遇到过一个场景吗——模型在GPU上跑得好好的,搬到昇腾NPU上,Attention层直接Segmentation Fault。报错信息只有一行core dump,百度Google都搜不到。你翻遍了官方文档,最后在cann-learning-hub的一个讨论帖里,看到有人把ops-transformer的FlashAttention接入代码贴了出来。这篇文章就是那个帖子的完整版。

#transformer#深度学习#人工智能
昇腾CANN上手笔记:从cann-learning-hub学会ops-transformer

去年帮朋友把一个NLP模型从GPU迁移到昇腾NPU,Attention层直接崩了。翻了一圈昇腾CANN的文档没找到答案,最后在cann-learning-hub的讨论区里看到有人把ops-transformer的FlashAttention接入PyTorch的完整代码贴了出来。这件事让我意识到一件事:昇腾CANN的玩法,官方文档只写了"能做什么",真要"怎么上手",得去社区里找。cann-lear

#transformer#深度学习
昇腾CANN上手笔记:从cann-learning-hub学会ops-transformer

去年帮朋友把一个NLP模型从GPU迁移到昇腾NPU,Attention层直接崩了。翻了一圈昇腾CANN的文档没找到答案,最后在cann-learning-hub的讨论区里看到有人把ops-transformer的FlashAttention接入PyTorch的完整代码贴了出来。这件事让我意识到一件事:昇腾CANN的玩法,官方文档只写了"能做什么",真要"怎么上手",得去社区里找。cann-lear

#transformer#深度学习
昇腾CANN上手笔记:从cann-learning-hub学会ops-transformer

去年帮朋友把一个NLP模型从GPU迁移到昇腾NPU,Attention层直接崩了。翻了一圈昇腾CANN的文档没找到答案,最后在cann-learning-hub的讨论区里看到有人把ops-transformer的FlashAttention接入PyTorch的完整代码贴了出来。这件事让我意识到一件事:昇腾CANN的玩法,官方文档只写了"能做什么",真要"怎么上手",得去社区里找。cann-lear

#transformer#深度学习
昇腾NPU 的“后厨五人组“:CANN 架构原理一把抓

昨天晚上和做推理引擎的朋友吃饭,他问我:“昇腾NPU 的软件栈为什么这么复杂?我写CUDA 的时候,直接调用cuBLAS 就行,你们为什么要分五层?我想了一下,跟他说:“你把NPU 想象成一个超大的后厨。做一道菜(跑一个模型)需要五组人配合——每组人只做自己擅长的事,但缺了哪组都不行。他眼睛亮了:“继续说。

#架构#深度学习
昇腾NPU 的“后厨五人组“:CANN 架构原理一把抓

昨天晚上和做推理引擎的朋友吃饭,他问我:“昇腾NPU 的软件栈为什么这么复杂?我写CUDA 的时候,直接调用cuBLAS 就行,你们为什么要分五层?我想了一下,跟他说:“你把NPU 想象成一个超大的后厨。做一道菜(跑一个模型)需要五组人配合——每组人只做自己擅长的事,但缺了哪组都不行。他眼睛亮了:“继续说。

#架构#深度学习
昇腾NPU 的“后厨五人组“:CANN 架构原理一把抓

昨天晚上和做推理引擎的朋友吃饭,他问我:“昇腾NPU 的软件栈为什么这么复杂?我写CUDA 的时候,直接调用cuBLAS 就行,你们为什么要分五层?我想了一下,跟他说:“你把NPU 想象成一个超大的后厨。做一道菜(跑一个模型)需要五组人配合——每组人只做自己擅长的事,但缺了哪组都不行。他眼睛亮了:“继续说。

#架构#深度学习
ops-transformer 快速上手:从克隆仓库到跑通第一个 FlashAttention 算子

理解 ops-transformer 最有效的方式,不是从单个算子的实现细节入手,而是先搞清楚这个仓库解决的是什么类型的架构问题。大多数算子仓库的本质是"一组高性能计算实现",但 ops-transformer 不完全是这样。它的设计目标不是简单地把计算做得更快,而是解决一个分层系统中的协作问题:PyTorch 框架发过来的计算请求,如何高效地落到昇腾 NPU 的硬件上,同时充分利用 GE 的融合

#架构#transformer#深度学习
    共 150 条
  • 1
  • 2
  • 3
  • 15
  • 请选择