logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

把 FlashAttention 跑上昇腾NPU:一份避坑实录

上周帮一个团队在 Atlas 800 上部署 LLaMA2-70B 推理服务,要求 4096 上下文、单卡跑通。他们的 PyTorch 模型在昇腾NPU上能跑,但一开 4096 序列就 OOM。我看了眼 profile 数据,问题很清楚:标准注意力在序列 4096 时,单层中间结果吃掉 4GB 显存。70B 模型 80 层,光注意力中间结果就要 320GB——这不是优化能解决的,得换实现。方案是

文章图片
#elasticsearch#大数据#搜索引擎
把 FlashAttention 跑上昇腾NPU:一份避坑实录

上周帮一个团队在 Atlas 800 上部署 LLaMA2-70B 推理服务,要求 4096 上下文、单卡跑通。他们的 PyTorch 模型在昇腾NPU上能跑,但一开 4096 序列就 OOM。我看了眼 profile 数据,问题很清楚:标准注意力在序列 4096 时,单层中间结果吃掉 4GB 显存。70B 模型 80 层,光注意力中间结果就要 320GB——这不是优化能解决的,得换实现。方案是

文章图片
#elasticsearch#大数据#搜索引擎
把 FlashAttention 跑上昇腾NPU:一份避坑实录

上周帮一个团队在 Atlas 800 上部署 LLaMA2-70B 推理服务,要求 4096 上下文、单卡跑通。他们的 PyTorch 模型在昇腾NPU上能跑,但一开 4096 序列就 OOM。我看了眼 profile 数据,问题很清楚:标准注意力在序列 4096 时,单层中间结果吃掉 4GB 显存。70B 模型 80 层,光注意力中间结果就要 320GB——这不是优化能解决的,得换实现。方案是

文章图片
#elasticsearch#大数据#搜索引擎
从零开始用 Ascend C 开发高性能自定义算子:实战指南与性能调优

/ 每个核处理 256 个元素// FP16 向量指令每次处理 16 个public:i < loop;CopyOut(i);private:private:func_type="aot" # Ahead-of-Time 编译。

文章图片
#c语言#开发语言
Ascend C 全面解析:从昇腾架构到高性能算子开发实战

国产AI算力崛起推动编程新范式发展。华为昇腾AI处理器凭借高能效比和软硬协同设计构建自主可控AI基础设施,其专用编程语言AscendC(基于C++扩展)可充分发挥芯片性能。文章系统解析AscendC的设计原理、内存模型和并行机制,通过VectorAdd等算子案例展示开发流程。该语言融合硬件抽象与编译器优化,支持显式内存管理和AI指令集,为开发者提供高性能算子开发方案。同时介绍开发环境搭建、项目结构

文章图片
#c语言#人工智能#开发语言
Ascend C 高级编程指南:从原理到工业级算子开发

在上一篇文章中,我们介绍了 Ascend C 的基本概念和入门方法。然而,在真实的工业场景中,一个高性能、高可靠性的自定义算子远不止“能跑”那么简单。它需要考虑数值稳定性、边界处理、多精度支持、错误恢复、性能可移植性等一系列工程问题。本文将深入 Ascend C 的高级编程技术,涵盖等关键主题,并通过一个完整的展示从设计到部署的全流程。本文适合已有 Ascend C 基础、希望将其应用于生产环境的

文章图片
#c语言#开发语言
Ascend C 高级编程指南:从原理到工业级算子开发

在上一篇文章中,我们介绍了 Ascend C 的基本概念和入门方法。然而,在真实的工业场景中,一个高性能、高可靠性的自定义算子远不止“能跑”那么简单。它需要考虑数值稳定性、边界处理、多精度支持、错误恢复、性能可移植性等一系列工程问题。本文将深入 Ascend C 的高级编程技术,涵盖等关键主题,并通过一个完整的展示从设计到部署的全流程。本文适合已有 Ascend C 基础、希望将其应用于生产环境的

文章图片
#c语言#开发语言
从零开始用 Ascend C 开发高性能自定义算子:实战指南与性能调优

/ 每个核处理 256 个元素// FP16 向量指令每次处理 16 个public:i < loop;CopyOut(i);private:private:func_type="aot" # Ahead-of-Time 编译。

文章图片
#c语言#开发语言
Ascend C 全面解析:从昇腾架构到高性能算子开发实战

国产AI算力崛起推动编程新范式发展。华为昇腾AI处理器凭借高能效比和软硬协同设计构建自主可控AI基础设施,其专用编程语言AscendC(基于C++扩展)可充分发挥芯片性能。文章系统解析AscendC的设计原理、内存模型和并行机制,通过VectorAdd等算子案例展示开发流程。该语言融合硬件抽象与编译器优化,支持显式内存管理和AI指令集,为开发者提供高性能算子开发方案。同时介绍开发环境搭建、项目结构

文章图片
#c语言#人工智能#开发语言
Ascend C 全面解析:从昇腾架构到高性能算子开发实战

国产AI算力崛起推动编程新范式发展。华为昇腾AI处理器凭借高能效比和软硬协同设计构建自主可控AI基础设施,其专用编程语言AscendC(基于C++扩展)可充分发挥芯片性能。文章系统解析AscendC的设计原理、内存模型和并行机制,通过VectorAdd等算子案例展示开发流程。该语言融合硬件抽象与编译器优化,支持显式内存管理和AI指令集,为开发者提供高性能算子开发方案。同时介绍开发环境搭建、项目结构

文章图片
#c语言#人工智能#开发语言
    共 17 条
  • 1
  • 2
  • 请选择