
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了大模型推理优化中注意力层的性能瓶颈问题及解决方案。针对7B参数模型在Ascend910上运行时显存爆炸的问题,通过采用ops-transformer仓库的FlashAttention算子,显存占用从16GB降至4GB,吞吐提升2倍。文章详细解析了FlashAttention的分块计算、OnlineSoftmax等核心优化技术,以及MoE和MC2算子的性能优势。同时提供了分块参数调优、精度

本文介绍了大模型推理优化中注意力层的性能瓶颈问题及解决方案。针对7B参数模型在Ascend910上运行时显存爆炸的问题,通过采用ops-transformer仓库的FlashAttention算子,显存占用从16GB降至4GB,吞吐提升2倍。文章详细解析了FlashAttention的分块计算、OnlineSoftmax等核心优化技术,以及MoE和MC2算子的性能优势。同时提供了分块参数调优、精度

本文介绍了大模型推理优化中注意力层的性能瓶颈问题及解决方案。针对7B参数模型在Ascend910上运行时显存爆炸的问题,通过采用ops-transformer仓库的FlashAttention算子,显存占用从16GB降至4GB,吞吐提升2倍。文章详细解析了FlashAttention的分块计算、OnlineSoftmax等核心优化技术,以及MoE和MC2算子的性能优势。同时提供了分块参数调优、精度

本文分享了在昇腾910 NPU上优化LLaMA-7B模型推理性能的经验。针对传统注意力机制O(N²)显存占用问题,采用ops-transformer仓库的FlashAttention算子,通过分块计算和online softmax技术,将4096序列长度的显存占用从16GB降至3.8GB,吞吐提升2倍至65 tokens/s。文章详细解析了FlashAttention的核心实现逻辑、昇腾NPU的硬

本文分享了在昇腾910 NPU上优化LLaMA-7B模型推理性能的经验。针对传统注意力机制O(N²)显存占用问题,采用ops-transformer仓库的FlashAttention算子,通过分块计算和online softmax技术,将4096序列长度的显存占用从16GB降至3.8GB,吞吐提升2倍至65 tokens/s。文章详细解析了FlashAttention的核心实现逻辑、昇腾NPU的硬

本文分享了在昇腾910 NPU上优化LLaMA-7B模型推理性能的经验。针对传统注意力机制O(N²)显存占用问题,采用ops-transformer仓库的FlashAttention算子,通过分块计算和online softmax技术,将4096序列长度的显存占用从16GB降至3.8GB,吞吐提升2倍至65 tokens/s。文章详细解析了FlashAttention的核心实现逻辑、昇腾NPU的硬

本文分享了将PyTorch模型从GPU迁移到昇腾NPU的优化经验。针对BERT-Large模型推理性能下降问题,通过分析发现主要瓶颈在于频繁的内存访问。介绍了昇腾CANN的ops-nn算子库及其融合算子技术,详细解析了LayerNorm等核心算子的实现优化。重点展示了融合算子如何通过减少HBM访问、降低kernel启动开销来提升性能,实测可使推理速度提升2-3倍。文章还提供了使用ops-nn的具体

本文分享了将PyTorch模型从GPU迁移到昇腾NPU的优化经验。针对BERT-Large模型推理性能下降问题,通过分析发现主要瓶颈在于频繁的内存访问。介绍了昇腾CANN的ops-nn算子库及其融合算子技术,详细解析了LayerNorm等核心算子的实现优化。重点展示了融合算子如何通过减少HBM访问、降低kernel启动开销来提升性能,实测可使推理速度提升2-3倍。文章还提供了使用ops-nn的具体

本文分享了将PyTorch模型从GPU迁移到昇腾NPU的优化经验。针对BERT-Large模型推理性能下降问题,通过分析发现主要瓶颈在于频繁的内存访问。介绍了昇腾CANN的ops-nn算子库及其融合算子技术,详细解析了LayerNorm等核心算子的实现优化。重点展示了融合算子如何通过减少HBM访问、降低kernel启动开销来提升性能,实测可使推理速度提升2-3倍。文章还提供了使用ops-nn的具体

本文分享了在昇腾NPU上部署LLaMA模型的经验。首先介绍了CANN异构计算架构的核心定位和五层架构,重点讲解了环境搭建、模型转换和性能优化三个关键环节。在性能优化部分,详细说明了FlashAttention算子和量化压缩的应用效果,并记录了首次推理慢和序列长度优化两个常见问题的解决方法。最后提供了实测数据对比,展示了不同优化方案在延迟、吞吐和显存占用方面的提升效果。文章指出昇腾NPU部署门槛虽低







