登录社区云,与社区用户共同成长
邀请您加入社区
摘要:MoE模型分布式推理中,Token分发的AllToAll通信成为主要瓶颈,占推理时间的40-55%。DeepEP通过优化通信与计算的重叠,显著提升性能。在昇腾集群上,采用Token重排和通信-计算并行策略,使通信占比从45%降至18%,吞吐量提升至820 tok/s。相比传统AllReduce,AllToAll对硬件链路要求更高,全互联架构能充分发挥其性能优势。
本文探讨了ElementWise算子融合在AI推理中的优化价值。通过将Add、Mul、Sub等小算子合并为复合Kernel,可显著减少调度开销(原开销是计算时间的10-20倍)。典型融合场景包括残差连接、激活函数与Dropout等,昇腾NPU采用连续算子融合、GEMM尾处理融合等策略。实测显示,LLaMA-7B模型在融合后Kernel数量减半,Launch开销降低50%,整体延迟下降7%。这种优化
摘要:广播(Broadcast)机制允许不同形状的张量进行运算,通过虚拟扩展而非物理复制来提升效率。昇腾NPU通过Vector Unit实现广播计算,小张量缓存在L1中复用,避免显存浪费。图编译层(GE)会优化广播操作,如融合广播与后续算子、调整Tensor布局等。当小张量超过L1容量时,ops-broadcast会调整分块策略以维持性能。该机制显著减少了内存占用和带宽消耗,是AI计算中的重要优化
摘要:神经网络依赖激活函数引入非线性,使多层网络能逼近任意函数。Transformer时代GELU/SiLU取代ReLU成为主流激活函数,其核心优势在于保留负值信息避免神经元死亡。昇腾NPU通过Vector Unit执行激活函数,但性能瓶颈在于数据搬运而非计算。ops-nn采用算子融合技术将激活函数与前后算子合并,减少中间数据搬运次数,实测可降低31%延迟。研究表明,激活函数对推理速度的影响主要来
本文介绍了使用asc-devkit快速搭建昇腾AI开发环境的方法。该工具包通过Docker镜像提供预配置的开发环境,包含CANN Toolkit、编译工具链和调试工具,解决了环境配置耗时、版本不一致等问题。文章详细说明了镜像拉取、容器启动、项目初始化的步骤,并针对常见问题提供解决方案。asc-devkit支持推理部署、算子开发和训练开发等不同场景,能显著提升开发效率,特别适合团队协作和新手快速上手
大模型训练依赖高效的分布式通信库实现多卡协同计算。HCCL作为华为昇腾平台的集合通信库,采用Ring AllReduce算法将通信复杂度从O(N²)降至O(N),支持AllReduce等核心操作。其通过拓扑感知优化通信路径,实现计算与通信重叠,并集成到PyTorch框架中。相比NCCL,HCCL针对昇腾硬件特性优化,在大数据量下可达对标硬件的88%带宽利用率。开发者只需切换backend即可在代码
文章摘要: 本文详细解析了大模型在昇腾NPU上的推理全链路过程,分为Prefill和解码两个阶段。Prefill阶段一次性处理完整输入序列,计算量大但只需执行一次;解码阶段则逐Token生成输出,依赖KV Cache机制降低计算复杂度。文章重点分析了KV Cache对显存资源的占用问题,并介绍了CANN在算子融合、动态Batch管理和分页缓存等方面的优化技术。最后总结了不同阶段的性能瓶颈及应对方案
B站预约链接:点击跳转预约
《昇腾ATC工具解析:从ONNX到OM模型的转换与优化》 本文深入剖析了昇腾NPU模型转换工具ATC的核心机制。针对ONNX模型无法直接在昇腾硬件运行的问题,文章从三个关键维度展开:1)转换流程解析,详细说明ATC如何将ONNX转为NPU可执行的OM格式;2)图优化技术,包括算子融合、无用节点消除等优化策略;3)实战中的典型问题,特别是动态Shape处理和非标准算子支持等常见痛点。通过BERT模型
本文通过厨房做菜的类比,形象解释了MindSpore与CANN的关系:MindSpore是AI框架,负责定义网络结构和训练逻辑;CANN是底层计算架构,负责在昇腾NPU上执行算子。文章重点阐述了二者的分工:MindSpore处理自动微分、参数更新等训练任务,CANN专注于算子执行和推理优化。特别强调了图编译机制在推理阶段的重要性,以及训练与推理的不同技术需求。最后给出明确判断标准:训练需要Mind
本文介绍了在昇腾NPU上使用AscendCL进行AI模型推理的完整流程。主要内容包括:1)AscendCL作为CANN架构的顶层接口,封装了底层Runtime和算子调度;2)环境搭建步骤,包括驱动安装和模型转换;3)详细代码示例展示从设备初始化到推理执行的完整过程;4)实际开发中常见的四个内存管理问题及解决方案;5)同步与异步执行模式的对比。文章采用实操导向的方式,重点突出了NPU推理开发中的关键
摘要:大模型推理变慢的主要原因是Attention计算存在O(n²)复杂度问题,尤其长序列场景下显存带宽成为瓶颈。昇腾NPU通过CANNops-transformer中的FlashAttention优化方案,采用分块计算和在线softmax技术,将显存读写量从O(n²)降至O(n)。结合昇腾的达芬奇架构特性(大缓存、Cube单元等)和CANN软件栈的自动优化能力,实现了128K长序列推理延迟降低5
5月16日-17日,第九届信息技术新工科产学研联盟年会暨信息技术领域产学合作论坛在天津隆重召开。大会由信息技术新工科产学研联盟、中国软件行业协会主办,华为技术有限公司协办,南开大学承办。联盟理事单位、工委成员单位等全国各地专家学者、教育界和企业界代表共400余人参会。华为CANN领域总经理邵立欣发表主题演讲,分享《CANN开源开放,助力高校培养AI开发者》。 本届年会开幕式由联盟副理事
为深入推进新工科建设,深化产教融合与校企协同育人,助力计算机与软件类专业学子夯实底层技术基础、拓宽前沿学术视野,全面提升工程实践能力与就业核心竞争力,5月10日和5月16日,计算机学院、软件学院联合CANN开源社区在临江楼B609室成功举办CANN启航营·南京信息工程大学站首期专题授课活动。本次活动特邀CANN高校生态经理武嘉伟、CANN社区技术专家田起光和毛远星莅临现场授课。三位行业
5月17日晚,随着最后一行代码在昇腾NPU算力平台上成功运行,为期两天(5月16日-17日)的杭电CANN启航营在热烈的交流氛围中圆满落下帷幕。本次活动由与联合打造,旨在将“产业前沿”第一时间引入课堂。同学们在下沙校区计算机学院1教115教室,共同经历了一场从底层算子开发到大语言模型微调的“硬核”技术之旅,实现了从理论学习到工程实践的深度跨越。
5月14日—15日,计算机学院联合CANN开源社区举办算子挑战赛校内赛赋能培训班。 14日上午,开班仪式举行。CANN社区PMC主席陈敏,华为半导体南京校招总监刘祖俊、CANN高校生态经理武嘉伟,CANN生态技术专家王星和刘艺,华为南研所校园招聘经理杨頔,我校计算机学院相关负责同志,计算机学院教授张犬俊等参加活动。 当前AI生态蓬勃发展,CANN作为衔接人工智能框架与昇腾硬件的核心异构
B站预约链接:点击预约
B站预约链接:点击预约
B站预约链接: 点击预约
在DeepSeek V4背后,昇腾CANN都有哪些黑科技?欢迎前往昇腾CANN B站官方账号观看直播~很高兴和哔哩哔哩百万up主。
摘要: DeepSeek V4的发布标志着中国AI产业迈向算力自主可控的关键一步。该模型采用国产优先战略,脱离英伟达CUDA生态,全面适配华为昇腾芯片及CANN Next框架。其万亿参数MoE架构与DSA2稀疏注意力技术显著降低硬件依赖,结合华为优化的算子库与分布式训练方案,实现了性能反超。实测显示,昇腾950PR推理性能达英伟达H20的2.87倍,成本降至三分之一。此举打破CUDA垄断,激活国产
CANN
——CANN
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net