登录社区云,与社区用户共同成长
邀请您加入社区
本文深入解析了昇腾AI异构计算架构CANN的层次化设计,详细介绍了其五层抽象架构和三层逻辑架构的协同机制。通过实战案例展示了CANN在模型部署、性能优化和多模态处理中的核心价值,帮助开发者高效利用昇腾芯片的异构计算能力,提升AI应用的性能和开发效率。
工具选对,事半功倍:在鲲鹏平台上,坚决首选的组合。对于计算密集型任务,不要尝试手写基础算法,库函数的优化是汇编级别的。关注 NUMA:鲲鹏 HPC 开发必须具备 NUMA 亲和性意识。在运行脚本中加入numactl或正确设置 OMP 环境变量是性能稳定的关键。对齐内存:在进行大规模数组分配时,使用替代malloc,确保地址对齐,配合编译器的向量化指令。在掌握了基础技术栈后,在后面的探索中我们可以学
本文系统阐述了深度学习核心算子矩阵乘法在昇腾NPU上的全链路优化方法。作者基于13年高性能计算经验,详细解析了从数学原理到硬件映射的优化体系,重点介绍了CANN软件栈通过分块策略、流水线并行和内存层级优化将NPU计算单元利用率从25%提升至85%的关键技术。文章包含完整的AscendC MatMul算子实现流程,涵盖基础实现到极致优化的五个阶段,并分享了千亿参数大模型训练中的典型性能陷阱解决方案。
系列直播回放及材料链接:CANN - 开源代码托管,代码协作 - AtomGit | GitCode 以前写算子要走写‑跑‑调‑测四步循环,常常调半天也达不到性能要求。 这次 CANN 把算子编程、运行时调度、性能调优三个环节一次性升级,助力开发者体验升级: 几行代码实现Transpose、Pad和Slice等搬运算子一次下发,批量调度,算子跑得更稳调试时直接看到卡在哪儿 从此不再为“搬运太多、同
本文介绍将TensorFlow网络模型迁移到昇腾AI平台,并执行训练的全流程。然后以TensorFlow 1.15训练脚本为例,详细介绍了自动迁移、手工迁移以及模型训练的操作步骤。
PTO(Parallel Tile Operation)是昇腾 CANN 定义的一套面向 tile 编程的虚拟 ISA。如果你还不了解 PTO 的 Tile 概念和整体设计思路,推荐先阅读《浅谈昇腾虚拟指令集 PTO》系列。本文聚焦 PTO ISA 的通信扩展指令集——当计算从单卡走向多卡,数据搬运的故事就从”核内物流”升级成了”城际运输”。 一、单卡是工厂,多卡就是工业园区 前几篇文章里,我们把
在PTO的设计里面,AIV 通过 TPUT_AYSNC 指令,把搬运任务转换成向 SDMA 硬件提交的传输描述符——相当于你把包裹和地址填好,交给快递员,然后回去继续工作。),如果是极小块的数据和较短的传输距离,可能还不如你自己送得快。CCU 是950代际新增的集合通信处理器单元,更像一个专门的分拣中心,你把货扔过去,它在内部完成归拢和分发。从此,计算与通信不再是割裂的两个孤岛,而是统一编程模型下
模型量化压缩技术通过降低参数精度实现存储缩减和计算加速,在昇腾NPU等专用硬件上获得显著性能提升。文章首先介绍量化基础概念,指出昇腾平台通过原生多精度计算架构和智能校准工具解决了低精度计算效率与精度损失的矛盾。随后详细分析主流量化类型及其应用场景,包括W8A8平衡方案、W8A8SC稀疏量化等,并给出典型量化映射算法实现。量化技术可带来4-8倍存储压缩、3-10倍计算加速,已成功应用于云端大模型推理
报名链接:点击报名 QQ交流群:1094426651
今日科技领域关键动态:1️⃣月之暗面开源KimiK2.6模型,在软件工程领域多项基准测试超越GPT-5.4,支持300子Agent并行执行4000步任务;2️⃣英飞凌宣布2027年AURIX车用MCU集成RISC-V架构,行业龙头转向开源架构;3️⃣腾讯云开源CubeSandbox沙箱服务,实现硬件级隔离与亚百毫秒启动;4️⃣工信部支持太空算力研究,我国智能算力规模达1882EFLOPS;5️⃣武
为期四天的CANNBot学 习周-入门课程圆满收官。本次活动以CANNBot算子开发为主题,通过4场连续直播,带领开发者从0到1体验CANN算子开发流程。 本次课程从入门体验到进阶实操,覆盖Ascend C、PyPTO、TileLang-Ascend等多种编程语言,充分展现了CANNBot依托Agent实现的全流程自动化能力,为算子开发带来了显著效率提升与全新开发体验。 Day 1|CA
2026年4月18日,CANN开源社区在北京成功举办本年度首次线下Meetup。本次活动汇聚了来自产业、高校及开源社区等多个领域的技术专家及社区贡献者,围绕行业落地实践、Ascend 950新特性开发与NPU开发工具等议题展开了一场深度技术交流与思想碰撞。 社区联创 | 中石油基于昇腾算子适配的研究与应用 中石油(北京)数智研究院资深算法专家、MCE Maintainer高菲分享了在
一、PyPTO Agent背景 在 Agent 技术日益普及的当下,为了提升开发体验,我们推出了基于智能体平台 CANNBot 与高性能编程框架 PyPTO 的 CANNBot PyPTO Agent。通过将最佳实践固化为 7 个标准化 Skill,并由 4 个专业 Agent 进行协同调度,成功构建了从需求分析到
向量单元也不再满足于规规矩矩的 SIMD,引入了 SIMT 前端,去处理 Gather/Scatter、多线程和控制流这些“难啃的骨头”。这样一来,原本需要反复搬运的一边数据,被固定住了,带宽压力立刻减轻,效率自然上去。换句话说,它不再让数据块在缓存里横冲直撞,而是让它们沿着更聪明的路径转身、回摆、再推进。矩阵遍历不再“一条道走到黑”,而是走到 L2 容量边界就折返,让数据块尽量在 L2 内部就地
当芯片越来越强,程序员为什么反而更难掌控它? 2026年3月,新一代昇腾950系列芯片逐渐浮出水面。 如果把它摊开来看,像不像一张密密麻麻的工业园区图? 32个矩阵运算单元、64个向量处理核心、1.6TB/s的DDR带宽、1728 TFlops的FP4算力。数字很耀眼,硬件很凶猛。可问题也正出在这里:芯片越强,驾驭它的人却未必越轻松。 为什么?因为它不再是一座小作坊,而是
玩转昇腾 CANN:从 Hello World 到向量归一化的 Host–NPU 异构计算实战
10 分钟玩转昇腾 CANN 自定义算子:Abs 算子基于 Notebook 调试全流程
本文介绍了昇腾NPU设备的容器化使用方法,主要包括两种挂载方式:物理挂载模式(需手动指定设备)和Runtime模式(自动挂载)。详细说明了虚拟NPU的创建流程,包括查询模板、创建vNPU、查看信息和删除操作。提供了Docker环境配置指南,包括二进制安装、Runtime配置和启动验证。最后给出了虚拟卡申请、挂载示例和常用管理命令。全文涵盖了从硬件虚拟化到容器集成的完整操作流程,适用于昇腾AI处理器
参会指南+直播预约,干货、福利双丰收 备受期待的 CANN Meetup 北京站,将于本周六(4月18日)正式与大家见面!为了让每一位参会者都能轻松赴约、满载而归,这份超详细参会指南请务必收藏,从签到流程到会场细节,从干货议题到专属福利,一文读懂所有注意事项~ 活动核心信息 ⏰ 签到时间:4月18日(本周六)13:30开始 ⏳ 活动时间:4月18日 14:00 - 18:00 活动地点:北
进入社区互动讨论,获取往期材料,赢取社区好礼~ https://gitcode.com/org/cann/discussions/80
昇腾
——昇腾
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net