一枕眠秋雨>o< 个人主页

@lmy050813

一枕眠秋雨>o<

2023-12-18 10:03:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

从样例到范式：cann-recipes-infer如何重塑AIGC推理的工程实践

当AIGC应用从实验室走向生产环境，开发者面临的不再是“能否跑通模型”的学术命题，而是“如何在有限算力下实现低延迟、高吞吐、低成本”的工程挑战。千亿参数模型的推理部署，涉及算子融合、显存优化、通信重叠、动态批处理等数十项调优技术，每一项都需深入理解硬件微架构与模型计算特性。这种知识壁垒，使大模型推理长期被少数头部厂商垄断。华为昇腾CANN架构下的，正试图打破这一困局——它不仅是优化样例的集合，更是

#AIGC

透视算力：cann-tools如何让AI性能调优从玄学走向科学

在AIGC应用的部署实践中，开发者常陷入一种困境：模型在昇腾NPU上运行缓慢，但无法定位瓶颈究竟源于算子实现、内存带宽、通信开销还是调度策略。传统性能分析工具（如Nsight、PyTorch Profiler）虽能提供粗粒度耗时统计，却难以揭示“为何慢”的深层原因——是AI Core利用率不足？是HBM带宽饱和？还是流水线气泡过多？华为昇腾CANN架构中的，正试图将性能调优从经验驱动的“玄学”转变

#人工智能

共建的算力：cann-ops如何重构国产AI的创新协作范式

仓库通过。

#重构 #人工智能

编译的炼金术：cann-compiler如何将计算图点石成金

在AI系统的全栈架构中，编译器常被视作“幕后工匠”——它默默将高层框架的计算图转化为硬件可执行的指令序列，却极少获得与模型架构同等的关注。然而，当千亿参数模型需要在昇腾NPU上实现90%以上的硬件利用率时，编译器的优化能力直接决定了算力释放的上限。华为昇腾CANN架构中的，正是一套将“算法意图”精准映射至“硬件行为”的编译炼金术。它不仅关乎性能，更关乎——在算子融合、内存复用、指令调度的复杂权衡中

从抽象到具象：TBE如何重构AI算子的编译哲学

在深度学习框架的演进史中，算子（Operator）始终扮演着“黑盒”角色——开发者调用conv2d或matmul，框架负责将其映射为底层硬件指令。这种抽象虽提升了开发效率，却也筑起了一道隐形高墙：当标准算子无法满足垂直场景的极致性能需求时，开发者要么忍受次优性能，要么陷入与硬件架构深度耦合的底层开发泥潭。华为昇腾CANN架构中的，正试图打破这一困境，它不仅是一个算子开发工具，更是一套重新定义“硬件

#人工智能

解构 CANN cann-ops：开源算子生态的社区共建与产业落地实践

cann-ops仓库的成功，不仅在于技术层面的创新，更在于其开源治理模式的探索。它证明了在 AI 芯片领域，"官方主导 + 社区共建"可以形成良性循环：官方提供基础能力和质量保证，社区贡献领域知识和创新场景，最终形成自给自足的生态。对于开发者而言，cann-ops降低了国产 AI 芯片的使用门槛；对于企业而言，它提供了脱离 CUDA 生态的可行路径；对于行业而言，它构建了自主可控的算力基础设施。在

#开源

通算融合：CANN ops-nn 在超大规模集群中的并行革命与生态突围

CANN ops-nn 的技术演进，映射出国产 AI 基础设施从"可用"到"好用"的艰难跃迁。MC² 通算融合不仅是一项算子优化技术，更是对分布式训练通信瓶颈的系统性回答——在英伟达 NVLink 的霸权之外，开辟了一条通过软件-硬件协同优化实现性能突围的新路径。然而，技术领先并不等同于生态成功。CUDA 的 400 万开发者、20 年工具链积累、以及全球学术界的默认选择，构成了难以逾越的“生态墙

#人工智能 #神经网络

解读CANN Runtime仓库：AIGC模型执行的“动力引擎“

Runtime是CANN的执行底座，通过精细化内存管理、多流并行调度、硬件亲和优化，保障AIGC模型在昇腾NPU上的高效稳定运行。对于追求极致性能的开发者，理解Runtime的调优手段，是释放硬件潜力的最后一环。相关链接：CANN组织主页runtime仓库地址。

#AIGC

编译的炼金术：cann-compiler如何将计算图点石成金

算子之力：解码CANN ops-nn如何重塑昇腾AI计算范式

在AI算力竞争白热化的今天，硬件性能的释放不再仅依赖晶体管数量的堆砌，更取决于软件栈对硬件特性的深度挖掘。华为昇腾AI处理器背后的异构计算架构CANN（Compute Architecture for Neural Networks），正通过全栈开源策略重构国产AI基础设施的生态格局。其中，作为CANN算子体系的核心载体，成为连接上层框架与底层硬件的关键枢纽。

#人工智能

共 37 条

请选择