菠萝吹雪272 个人主页

@2502_93917425

菠萝吹雪272

2025-11-20 08:45:12 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【昇腾CANN】ops-transformer算子库：Transformer模型的性能加速器

本文介绍了大模型推理优化中注意力层的性能瓶颈问题及解决方案。针对7B参数模型在Ascend910上运行时显存爆炸的问题，通过采用ops-transformer仓库的FlashAttention算子，显存占用从16GB降至4GB，吞吐提升2倍。文章详细解析了FlashAttention的分块计算、OnlineSoftmax等核心优化技术，以及MoE和MC2算子的性能优势。同时提供了分块参数调优、精度

#transformer #深度学习 #人工智能

【昇腾CANN】ops-transformer算子库：Transformer模型的性能加速器

#transformer #深度学习 #人工智能

【昇腾CANN】ops-transformer算子库：Transformer模型的性能加速器

#transformer #深度学习 #人工智能

FlashAttention 在昇腾NPU上的实现：ops-transformer 算子深度解读

本文分享了在昇腾910 NPU上优化LLaMA-7B模型推理性能的经验。针对传统注意力机制O(N²)显存占用问题，采用ops-transformer仓库的FlashAttention算子，通过分块计算和online softmax技术，将4096序列长度的显存占用从16GB降至3.8GB，吞吐提升2倍至65 tokens/s。文章详细解析了FlashAttention的核心实现逻辑、昇腾NPU的硬

#transformer #深度学习 #人工智能

FlashAttention 在昇腾NPU上的实现：ops-transformer 算子深度解读

#transformer #深度学习 #人工智能

FlashAttention 在昇腾NPU上的实现：ops-transformer 算子深度解读

#transformer #深度学习 #人工智能

深度解析 ops-nn 神经网络算子库：昇腾NPU上的算子融合加速实践

本文分享了将PyTorch模型从GPU迁移到昇腾NPU的优化经验。针对BERT-Large模型推理性能下降问题，通过分析发现主要瓶颈在于频繁的内存访问。介绍了昇腾CANN的ops-nn算子库及其融合算子技术，详细解析了LayerNorm等核心算子的实现优化。重点展示了融合算子如何通过减少HBM访问、降低kernel启动开销来提升性能，实测可使推理速度提升2-3倍。文章还提供了使用ops-nn的具体

#神经网络 #人工智能 #深度学习

深度解析 ops-nn 神经网络算子库：昇腾NPU上的算子融合加速实践

#神经网络 #人工智能 #深度学习

深度解析 ops-nn 神经网络算子库：昇腾NPU上的算子融合加速实践

#神经网络 #人工智能 #深度学习

在昇腾NPU上部署LLaMA模型：从环境搭建到推理加速

本文分享了在昇腾NPU上部署LLaMA模型的经验。首先介绍了CANN异构计算架构的核心定位和五层架构，重点讲解了环境搭建、模型转换和性能优化三个关键环节。在性能优化部分，详细说明了FlashAttention算子和量化压缩的应用效果，并记录了首次推理慢和序列长度优化两个常见问题的解决方法。最后提供了实测数据对比，展示了不同优化方案在延迟、吞吐和显存占用方面的提升效果。文章指出昇腾NPU部署门槛虽低

#算法

共 31 条

请选择