logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【昇腾CANN】ops-transformer算子库:Transformer模型的性能加速器

本文介绍了大模型推理优化中注意力层的性能瓶颈问题及解决方案。针对7B参数模型在Ascend910上运行时显存爆炸的问题,通过采用ops-transformer仓库的FlashAttention算子,显存占用从16GB降至4GB,吞吐提升2倍。文章详细解析了FlashAttention的分块计算、OnlineSoftmax等核心优化技术,以及MoE和MC2算子的性能优势。同时提供了分块参数调优、精度

文章图片
#transformer#深度学习#人工智能
【昇腾CANN】ops-transformer算子库:Transformer模型的性能加速器

本文介绍了大模型推理优化中注意力层的性能瓶颈问题及解决方案。针对7B参数模型在Ascend910上运行时显存爆炸的问题,通过采用ops-transformer仓库的FlashAttention算子,显存占用从16GB降至4GB,吞吐提升2倍。文章详细解析了FlashAttention的分块计算、OnlineSoftmax等核心优化技术,以及MoE和MC2算子的性能优势。同时提供了分块参数调优、精度

文章图片
#transformer#深度学习#人工智能
【昇腾CANN】ops-transformer算子库:Transformer模型的性能加速器

本文介绍了大模型推理优化中注意力层的性能瓶颈问题及解决方案。针对7B参数模型在Ascend910上运行时显存爆炸的问题,通过采用ops-transformer仓库的FlashAttention算子,显存占用从16GB降至4GB,吞吐提升2倍。文章详细解析了FlashAttention的分块计算、OnlineSoftmax等核心优化技术,以及MoE和MC2算子的性能优势。同时提供了分块参数调优、精度

文章图片
#transformer#深度学习#人工智能
FlashAttention 在昇腾NPU上的实现:ops-transformer 算子深度解读

本文分享了在昇腾910 NPU上优化LLaMA-7B模型推理性能的经验。针对传统注意力机制O(N²)显存占用问题,采用ops-transformer仓库的FlashAttention算子,通过分块计算和online softmax技术,将4096序列长度的显存占用从16GB降至3.8GB,吞吐提升2倍至65 tokens/s。文章详细解析了FlashAttention的核心实现逻辑、昇腾NPU的硬

文章图片
#transformer#深度学习#人工智能
FlashAttention 在昇腾NPU上的实现:ops-transformer 算子深度解读

本文分享了在昇腾910 NPU上优化LLaMA-7B模型推理性能的经验。针对传统注意力机制O(N²)显存占用问题,采用ops-transformer仓库的FlashAttention算子,通过分块计算和online softmax技术,将4096序列长度的显存占用从16GB降至3.8GB,吞吐提升2倍至65 tokens/s。文章详细解析了FlashAttention的核心实现逻辑、昇腾NPU的硬

文章图片
#transformer#深度学习#人工智能
FlashAttention 在昇腾NPU上的实现:ops-transformer 算子深度解读

本文分享了在昇腾910 NPU上优化LLaMA-7B模型推理性能的经验。针对传统注意力机制O(N²)显存占用问题,采用ops-transformer仓库的FlashAttention算子,通过分块计算和online softmax技术,将4096序列长度的显存占用从16GB降至3.8GB,吞吐提升2倍至65 tokens/s。文章详细解析了FlashAttention的核心实现逻辑、昇腾NPU的硬

文章图片
#transformer#深度学习#人工智能
深度解析 ops-nn 神经网络算子库:昇腾NPU上的算子融合加速实践

本文分享了将PyTorch模型从GPU迁移到昇腾NPU的优化经验。针对BERT-Large模型推理性能下降问题,通过分析发现主要瓶颈在于频繁的内存访问。介绍了昇腾CANN的ops-nn算子库及其融合算子技术,详细解析了LayerNorm等核心算子的实现优化。重点展示了融合算子如何通过减少HBM访问、降低kernel启动开销来提升性能,实测可使推理速度提升2-3倍。文章还提供了使用ops-nn的具体

文章图片
#神经网络#人工智能#深度学习
深度解析 ops-nn 神经网络算子库:昇腾NPU上的算子融合加速实践

本文分享了将PyTorch模型从GPU迁移到昇腾NPU的优化经验。针对BERT-Large模型推理性能下降问题,通过分析发现主要瓶颈在于频繁的内存访问。介绍了昇腾CANN的ops-nn算子库及其融合算子技术,详细解析了LayerNorm等核心算子的实现优化。重点展示了融合算子如何通过减少HBM访问、降低kernel启动开销来提升性能,实测可使推理速度提升2-3倍。文章还提供了使用ops-nn的具体

文章图片
#神经网络#人工智能#深度学习
深度解析 ops-nn 神经网络算子库:昇腾NPU上的算子融合加速实践

本文分享了将PyTorch模型从GPU迁移到昇腾NPU的优化经验。针对BERT-Large模型推理性能下降问题,通过分析发现主要瓶颈在于频繁的内存访问。介绍了昇腾CANN的ops-nn算子库及其融合算子技术,详细解析了LayerNorm等核心算子的实现优化。重点展示了融合算子如何通过减少HBM访问、降低kernel启动开销来提升性能,实测可使推理速度提升2-3倍。文章还提供了使用ops-nn的具体

文章图片
#神经网络#人工智能#深度学习
在昇腾NPU上部署LLaMA模型:从环境搭建到推理加速

本文分享了在昇腾NPU上部署LLaMA模型的经验。首先介绍了CANN异构计算架构的核心定位和五层架构,重点讲解了环境搭建、模型转换和性能优化三个关键环节。在性能优化部分,详细说明了FlashAttention算子和量化压缩的应用效果,并记录了首次推理慢和序列长度优化两个常见问题的解决方法。最后提供了实测数据对比,展示了不同优化方案在延迟、吞吐和显存占用方面的提升效果。文章指出昇腾NPU部署门槛虽低

#算法
    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择