
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:ATB(AscendTransformerBoost)是昇腾CANN生态中的Transformer加速库,通过算子融合技术优化大模型在昇腾NPU上的推理性能。它解决了算子调度开销大、显存碎片浪费和MoE模型支持差三大痛点,将Transformer层计算融合为1-2个Kernel,调度开销从5ms降至0.1ms以下。ATB支持Attention加速、MoE优化、FFN/LayerNorm融合和

摘要:本文深入探讨了FlashAttention在昇腾NPU上的优化策略,揭示了其与GPU实现的本质差异。针对达芬奇架构的Cube/Vector双单元协同特性,文章详细分析了内存层次结构对Tiling策略的影响,提出了基于L1缓存的block切分方案。通过将7次算子调用融合为1次Kernel,实现了调度开销从3ms降至0.05ms的突破。实验数据显示,在Qwen2.5-7B模型上,优化后的吞吐量提

KV Cache优化通过量化、分页存储和压缩技术显著提升大模型推理效率。INT8量化可节省50%显存,精度损失<0.5%;PagedAttention消除内存碎片,提升利用率至95%;DeepSeek-V4的HCA压缩实现128倍显存节省。组合方案在Qwen2.5-7B上使batch从8提升至32,吞吐增长104%。关键经验:前4层保持FP16精度,block_size设为16最优,长序列场景采用

摘要:推测解码(Speculative Decoding)通过引入小型Draft Model预测多个Token,再由大模型并行验证,突破自回归解码的速度瓶颈。该方法利用Draft Model快速生成候选Token序列(如每次预测5个),大模型通过单次Prefill推理批量验证,保留匹配部分。实验显示LLaMA-13B在Ascend 910上速度提升3倍(从800 Token/s至2400 Toke

AOL算子库是CANN架构中的核心组件,提供8类专用算子库:数学类(ops-math)、神经网络类(ops-nn)、线性代数类(ops-blas)、计算机视觉类(ops-cv)、Transformer类(ops-transformer)、FFT类(ops-fft)、随机数类(ops-rand)和张量操作类(ops-tensor)。这些算子库通过分层架构实现高效计算,相比手写算子可提升50-80%性

本文介绍了graph-autofusion这一自动算子融合框架的技术原理与应用效果。该框架通过计算图分析自动识别可融合算子对,基于经验模型评估融合收益,并自动生成融合算子代码。实验显示,在7B模型推理优化中,将Attention+FFN+LayerNorm三个独立算子自动融合后,HBM读写量从14.2GB降至2.1GB,吞吐量提升162%达到89 tokens/s。相比手动融合2-3周的开发周期,

TBE算子开发框架:高效与性能的平衡选择 TBE(Tensor Boost Engine)作为华为CANN早期的算子开发框架,采用DSL描述计算逻辑,自动生成调度策略和底层代码,显著提升了开发效率。虽然其自动生成的代码性能比手写Ascend C低10-15%,但开发效率高出3倍,特别适合快速开发和已有算子维护场景。TBE通过自动Tiling、缓存管理和流水线优化等技术,使开发者只需20行DSL代码

摘要: AOE调优引擎通过贝叶斯优化和强化学习技术,显著提升GEMM算子性能优化效率。实验显示,相比手动调优(21种组合耗时2-3天,最优吞吐89 tokens/s),AOE在10分钟内自动搜索出更优配置(吞吐102 tokens/s,提升15%)。AOE将Tiling参数、编译选项等建模为千万级搜索空间,采用高斯过程代理模型预测最优配置,并通过强化学习处理超大规模搜索空间。其离线调优特性不影响推

MindSpore自适应分布式训练技术通过自动搜索最优并行策略组合(数据/模型/流水线并行等),显著提升大模型训练效率。以70B模型为例,传统手动调优需2天测试17种配置,而MindSpore在10分钟内即可找到最优方案(DP=16/MP=2/PP=2),吞吐提升135%至54 TFLOPS。该技术将上千种可能的并行策略建模为搜索问题,采用贝叶斯优化算法,综合考虑显存占用、通信开销等约束,相比人工

AOL算子库是CANN架构中的核心组件,提供8类专用算子库:数学类(ops-math)、神经网络类(ops-nn)、线性代数类(ops-blas)、计算机视觉类(ops-cv)、Transformer类(ops-transformer)、FFT类(ops-fft)、随机数类(ops-rand)和张量操作类(ops-tensor)。这些算子库通过分层架构实现高效计算,相比手写算子可提升50-80%性








