昇腾 CANN ：以开放架构打通 AI 产业化 “最后一公里”

CANN在技术创新方面也做了诸多突破。从具体的实践来看，清华大学计图团队正基于昇腾构建起MoE专用的算子体系，实现INT4量化，MLA矩阵吸收等技术创新，达成性能与内存的双重突破，率先在昇腾单台Atlas 800 服务器上，部署满血版DeepSeek R1模型，实现推理性能翻番。昇腾CANN是华为针对AI场景推出的异构计算架构，对上支持PyTorch、TensorFlow以及昇思MindSpore

CSDN资讯

7744人浏览 · 2025-05-30 16:40:43

CSDN资讯 · 2025-05-30 16:40:43 发布

计算架构是决定 “硬件性能能否释放、软件能否高效运行、生态能否协同繁荣”的核心逻辑。从大模型训练的异构算力调度（如 CPU+NPU 协同），到科学计算的内存带宽优化（如 TB 级内存池化），再到 AI 应用的开发效率（如代码自动适配多芯片），计算架构的每一次创新都在破解 “性能瓶颈、成本高企、生态割裂” 的行业痛点。

伴随着DeepSeek的出现，大模型的爆发式增长正推动算力需求进入新纪元。当大模型的参数量越来越大，传统集群架构虽然可以通过不断叠加来扩展算力，但是各集群之间却受到通信效率的制约，成为大模型训练效率的绊脚石。因此，计算架构的计算效率革新便成为突破瓶颈的关键。

5月23-24日的鲲鹏昇腾开发者大会2025上，华为公布了昇腾CANN架构的最新进展与创新情况。

以计算-内存-通信三驾马车重构AI算力基因

昇腾CANN是华为针对AI场景推出的异构计算架构，对上支持PyTorch、TensorFlow以及昇思MindSpore等业界主流AI框架，对下使能昇腾AI处理器，发挥承上启下的关键作用，是提升昇腾AI处理器计算效率的关键平台。

伴随AI技术持续突破，模型优化技术从“模型结构创新”延伸到“训推全流程”算法创新，从模型层面算法优化，下探到底层硬件资源的极致利用。CANN是充分释放处理器极致性能的关键，今年昇腾在计算加速、通信加速、内存优化三大领域协同发力，持续释放硬件价值，创新加速技术，以满足前沿模型架构及工程创新的发展诉求。

在计算优化领域，通过MLAPO融合算子技术，将MoE模型中13个串行小算子整合为超级大算子，结合Vector与Cube计算单元并行处理，使计算耗时从109ms降至45ms，性能提升超142%，显著释放硬件计算潜力。
通信效率突破上，NPUDirect通信算法革新传统RDMA异步通信模式，实现“单消息一次同步”机制，使小包通信耗时降低90%，整网通信时延减少50%，在大规模MoE模型推理中大幅提升数据传输效率。
内存管理方面，创新多重地址映射技术，动态切分物理内存适配虚拟地址，有效拼接不连续空闲内存，将内存利用率提升20%以上，破解动态shape场景下的碎片难题。

三大技术协同突破，构建起昇腾CANN“计算高效、通信敏捷、内存精细”的底层技术体系，为AI模型训推全流程提供极致算力支撑，引领AI基础设施性能跃迁。

向深层开放进化

作为昇腾AI的核心软件平台，始终以“使能每一位创新者”为目标，坚持深度开放策略，持续技术创新，释放硬件极致潜能，推动AI开发效率与性能的双重突破。本次大会带来了多项重磅技术升级，并通过构建全面开放的创新生态与极致效能的算力底座，携手全球开发者加速AI技术向千行万业渗透，以智能算力革命重塑产业创新范式。

华为昇腾计算业务总裁张迪煊谈到，当前，CANN开源算子加速库、通信算法、AscendC、集合通信库等组件已在Gitee社区上线260+算子、10+通信算法参考样例，显著提升开发效率。同时，runtime运行时的开放，提供底层原子级能力，支持灵活组合，充分释放硬件性能潜力。在生态建设上，通过毕昇编译器的升级与开放，实现与Triton、FlagTree等第三方编程框架的无感对接。截至目前，昇腾已携手互联网、运营商、金融等30多个伙伴，创新开发260多个高性能算子，大幅提升业务场景性能表现。此外，CANN持续升级，在计算加速、通信加速、内存优化三大领域协同发力，不断突破算力瓶颈、优化数据传输效率、提升资源利用效能，推动人工智能应用迈向更广阔天地。

CANN在技术创新方面也做了诸多突破。在操作系统层面，打造多样化OS，兼容鸿蒙、欧拉等，为开发运行筑牢根基。CANN开源算子加速库、通信算法、Ascend C、集合通信库等组件已在Gitee社区上线260+算子、10+通信算法参考样例，显著提升开发效率。整图优化方面，提供内存复用、自动调度等加速技术，加速模型计算效率。

这种"基础层开放+应用层共创"的双轮驱动模式，不仅重塑了AI算力效能边界，更推动了AI产业链的协同进化，形成从技术突破到商业转化的生态闭环。

除此之外，开源了Ascend C、算子加速库、集合通信库等组件，并在Gitee上提供了丰富的参考样例。同时还深度开放了Runtime运行时、毕昇编译器等接口，满足发烧友极致开发的需求。过去，大家只能通过GE图引擎才能做整图调度优化。现在，可以利用aclGraph整图下沉接口，可直接调用最底层能力，大幅提升优化效率。基于开放的运行时接口，灵活组合，挖掘更极致的硬件性能，通过分层开放架构实现技术普惠化跃迁，构建起覆盖算子开发、系统调优到编译链优化的全场景赋能体系，实现“效率与性能兼得”的开发体验升级，具体来看：

在开发效率提升方面，发布CATLASS算子模板库，分层提供Device层调用接口、Kernel层完整实现及Block/Tile/Basic层拆解源码，实现Matmul开发周期缩至50%；开源Ascend C 2.0并提供丰富开发接口，结合算子加速库（AOL）与集合通信库（HCCL），搭配Gitee社区参考样例，助力开发者快速完成算子开发与调优。
开放底层原子能力，开放190+runtime运行时接口，提供底层原子级能力，支持灵活组合，允许开发者直接调用NPU硬件的原子级能力，实现整图调度优化与硬件性能极限挖掘。
毕昇编译器构建开放生态，兼容主流开发体系，毕昇编译器以“全链路优化+生态兼容”为核心，打造开发者友好型工具链。在编译优化层面，前端支持异构混合编程，中端优化使算子性能提升20%+，后端实现内存问题分钟级定位；在生态开放层面，开放AscendNPU IR接口，实现开发者“无感迁移”开发体验，同时通过开源社区持续输出技术能力，推动昇腾与全球AI开发生态的深度融合。在生态建设上，通过毕昇编译器的升级与开放，实现与Triton、FlagTree等第三方编程框架的无感对接。

据张迪煊介绍，截止目前深度贡献的开发者已经从1000多人迅速增长到6000多人。在操作系统、算子算法、整图优化及加速库等各个层面，持续创新。互联网、运营商、金融等30多个伙伴，开发了260多个高性能算子，在实际应用场景中带来业务性能提升。

从具体的实践来看，清华大学计图团队正基于昇腾构建起MoE专用的算子体系，实现INT4量化，MLA矩阵吸收等技术创新，达成性能与内存的双重突破，率先在昇腾单台Atlas 800 服务器上，部署满血版DeepSeek R1模型，实现推理性能翻番。

华南理工大学计算机科学与工程学院教授、博士生导师陆璐现场演示昇腾CANN算子模板库CATLASS的使用，展示如何通过自定义模板编程释放Ascend C高性能算子开发潜能。华南理工算力并行加速团队致力于昇腾平台核心算子性能优化，通过模板库和编译优化等技术手段，使大模型训练推理一体化算子的开发更加简单高效，持续推动完善昇腾生态体系。

昇腾 CANN 2025 的架构升级，通过算子调度、图编译优化与工具链协同，实现了 “硬件性能释放 - 软件工具提效 - 行业场景落地”的全链路突破。在 AI 计算架构竞争中，CANN 不仅提升昇腾芯片的算力利用率，更通过生态适配降低开发者门槛，为千行百业提供 “高性能、易开发、低成本” 的 AI 计算支撑。随着昇腾 AI 生态的持续扩容，CANN 将成为昇腾技术体系向行业渗透的核心引擎，推动 AI 从 “技术创新” 向 “产业普惠” 的深度演进。