logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从样例到范式:cann-recipes-infer如何重塑AIGC推理的工程实践

当AIGC应用从实验室走向生产环境,开发者面临的不再是“能否跑通模型”的学术命题,而是“如何在有限算力下实现低延迟、高吞吐、低成本”的工程挑战。千亿参数模型的推理部署,涉及算子融合、显存优化、通信重叠、动态批处理等数十项调优技术,每一项都需深入理解硬件微架构与模型计算特性。这种知识壁垒,使大模型推理长期被少数头部厂商垄断。华为昇腾CANN架构下的,正试图打破这一困局——它不仅是优化样例的集合,更是

#AIGC
透视算力:cann-tools如何让AI性能调优从玄学走向科学

在AIGC应用的部署实践中,开发者常陷入一种困境:模型在昇腾NPU上运行缓慢,但无法定位瓶颈究竟源于算子实现、内存带宽、通信开销还是调度策略。传统性能分析工具(如Nsight、PyTorch Profiler)虽能提供粗粒度耗时统计,却难以揭示“为何慢”的深层原因——是AI Core利用率不足?是HBM带宽饱和?还是流水线气泡过多?华为昇腾CANN架构中的,正试图将性能调优从经验驱动的“玄学”转变

#人工智能
编译的炼金术:cann-compiler如何将计算图点石成金

在AI系统的全栈架构中,编译器常被视作“幕后工匠”——它默默将高层框架的计算图转化为硬件可执行的指令序列,却极少获得与模型架构同等的关注。然而,当千亿参数模型需要在昇腾NPU上实现90%以上的硬件利用率时,编译器的优化能力直接决定了算力释放的上限。华为昇腾CANN架构中的,正是一套将“算法意图”精准映射至“硬件行为”的编译炼金术。它不仅关乎性能,更关乎——在算子融合、内存复用、指令调度的复杂权衡中

从抽象到具象:TBE如何重构AI算子的编译哲学

在深度学习框架的演进史中,算子(Operator)始终扮演着“黑盒”角色——开发者调用conv2d或matmul,框架负责将其映射为底层硬件指令。这种抽象虽提升了开发效率,却也筑起了一道隐形高墙:当标准算子无法满足垂直场景的极致性能需求时,开发者要么忍受次优性能,要么陷入与硬件架构深度耦合的底层开发泥潭。华为昇腾CANN架构中的,正试图打破这一困境,它不仅是一个算子开发工具,更是一套重新定义“硬件

#人工智能
解构 CANN cann-ops:开源算子生态的社区共建与产业落地实践

cann-ops仓库的成功,不仅在于技术层面的创新,更在于其开源治理模式的探索。它证明了在 AI 芯片领域,"官方主导 + 社区共建"可以形成良性循环:官方提供基础能力和质量保证,社区贡献领域知识和创新场景,最终形成自给自足的生态。对于开发者而言,cann-ops降低了国产 AI 芯片的使用门槛;对于企业而言,它提供了脱离 CUDA 生态的可行路径;对于行业而言,它构建了自主可控的算力基础设施。在

#开源
通算融合:CANN ops-nn 在超大规模集群中的并行革命与生态突围

CANN ops-nn 的技术演进,映射出国产 AI 基础设施从"可用"到"好用"的艰难跃迁。MC² 通算融合不仅是一项算子优化技术,更是对分布式训练通信瓶颈的系统性回答——在英伟达 NVLink 的霸权之外,开辟了一条通过软件-硬件协同优化实现性能突围的新路径。然而,技术领先并不等同于生态成功。CUDA 的 400 万开发者、20 年工具链积累、以及全球学术界的默认选择,构成了难以逾越的“生态墙

#人工智能#神经网络
解读CANN Runtime仓库:AIGC模型执行的“动力引擎“

Runtime是CANN的执行底座,通过精细化内存管理、多流并行调度、硬件亲和优化,保障AIGC模型在昇腾NPU上的高效稳定运行。对于追求极致性能的开发者,理解Runtime的调优手段,是释放硬件潜力的最后一环。相关链接:CANN组织主页runtime仓库地址。

#AIGC
编译的炼金术:cann-compiler如何将计算图点石成金

在AI系统的全栈架构中,编译器常被视作“幕后工匠”——它默默将高层框架的计算图转化为硬件可执行的指令序列,却极少获得与模型架构同等的关注。然而,当千亿参数模型需要在昇腾NPU上实现90%以上的硬件利用率时,编译器的优化能力直接决定了算力释放的上限。华为昇腾CANN架构中的,正是一套将“算法意图”精准映射至“硬件行为”的编译炼金术。它不仅关乎性能,更关乎——在算子融合、内存复用、指令调度的复杂权衡中

算子之力:解码CANN ops-nn如何重塑昇腾AI计算范式

在AI算力竞争白热化的今天,硬件性能的释放不再仅依赖晶体管数量的堆砌,更取决于软件栈对硬件特性的深度挖掘。华为昇腾AI处理器背后的异构计算架构CANN(Compute Architecture for Neural Networks),正通过全栈开源策略重构国产AI基础设施的生态格局。其中,作为CANN算子体系的核心载体,成为连接上层框架与底层硬件的关键枢纽。

#人工智能
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择