登录社区云,与社区用户共同成长
邀请您加入社区
一、PyPTO Agent背景 在 Agent 技术日益普及的当下,为了提升开发体验,我们推出了基于智能体平台 CANNBot 与高性能编程框架 PyPTO 的 CANNBot PyPTO Agent。通过将最佳实践固化为 7 个标准化 Skill,并由 4 个专业 Agent 进行协同调度,成功构建了从需求分析到
向量单元也不再满足于规规矩矩的 SIMD,引入了 SIMT 前端,去处理 Gather/Scatter、多线程和控制流这些“难啃的骨头”。这样一来,原本需要反复搬运的一边数据,被固定住了,带宽压力立刻减轻,效率自然上去。换句话说,它不再让数据块在缓存里横冲直撞,而是让它们沿着更聪明的路径转身、回摆、再推进。矩阵遍历不再“一条道走到黑”,而是走到 L2 容量边界就折返,让数据块尽量在 L2 内部就地
当芯片越来越强,程序员为什么反而更难掌控它? 2026年3月,新一代昇腾950系列芯片逐渐浮出水面。 如果把它摊开来看,像不像一张密密麻麻的工业园区图? 32个矩阵运算单元、64个向量处理核心、1.6TB/s的DDR带宽、1728 TFlops的FP4算力。数字很耀眼,硬件很凶猛。可问题也正出在这里:芯片越强,驾驭它的人却未必越轻松。 为什么?因为它不再是一座小作坊,而是
玩转昇腾 CANN:从 Hello World 到向量归一化的 Host–NPU 异构计算实战
10 分钟玩转昇腾 CANN 自定义算子:Abs 算子基于 Notebook 调试全流程
参会指南+直播预约,干货、福利双丰收 备受期待的 CANN Meetup 北京站,将于本周六(4月18日)正式与大家见面!为了让每一位参会者都能轻松赴约、满载而归,这份超详细参会指南请务必收藏,从签到流程到会场细节,从干货议题到专属福利,一文读懂所有注意事项~ 活动核心信息 ⏰ 签到时间:4月18日(本周六)13:30开始 ⏳ 活动时间:4月18日 14:00 - 18:00 活动地点:北
进入社区互动讨论,获取往期材料,赢取社区好礼~ https://gitcode.com/org/cann/discussions/80
CANN Meetup本周六在北京举办,干货抢先看。 议题一:中石油基于昇腾算子适配的研究与应用 中石油国产算力适配取得突破性进展,实现科学计算、时序模型、多模态、CV等近20个模型在多领域全面落地应用,深度赋能科研创新及生产运营核心业务。通过持续攻坚显存优化、算子开发、精度对齐等技术难题,积累了扎实的工程化实践经验,为能源行业算力自主创新树立了标杆。 议题二:AI赋能化工工艺流程模拟与仿真 构建
近日,CANN开源社区首个面向垂直行业的Material Chemical Engineering SIG(材料化学工程特别兴趣小组,简称MCE SIG)正式发布两款科学计算算子——LJForceFused分子动力学算子与耗散粒子动力学(DPD)算子。两款算子分别面向微观原子尺度与介观流体尺度,标志着该SIG初步完成多尺度计算布局,为流程工业领域提供了专业开源算子基础设施。 目前两款算子已覆盖催化
本期带您了解如何使用msopst工具。
了解通用目标检测与识别一站式方案的功能与特性,还有实现流程,以及可定制点。
本文全面解析AI三大加速平台:NVIDIA CUDA、AMD ROCm和华为CANN,从架构设计到实战应用。CUDA作为行业标准,生态成熟但封闭;ROCm开源跨平台,生态仍在完善;CANN专为国产昇腾NPU设计,软硬协同优势明显。文章对比了三者在编程模型、工具链和适用场景的差异,并给出选型建议:CUDA适合成熟HPC应用,ROCm适合成本敏感型场景,CANN符合国产化需求。未来趋势呈现CUDA生态
而后者对应的则是MoE层,它有点像把这个大的全连接层打散成很多可以并行运作的小的全连接单元,每个单元称之为一个专家,通过在训练中对不同专家进行有导向有分工的学习,同时训练一个输入数据进入专家模块之前的路由选择机制,MoE就可以在保证神经网络效果的同时大大减少网络的计算量。上面是从计算并行的角度来说的,如果从存储的角度来看,故事就反过来了——更多的小批次的数据进入流水,意味着从一个数据的产生到消耗之
CANN开源社区cann-recipes-train仓链接: https://gitcode.com/cann/cann-recipes-train
报名CANN训练营完成AscendC算子开发认证(中级)及社区任务,即有机会赢取华为三折叠手机、笔记本电脑等大奖。立即扫码报名,开启挑战之旅!
手把手带你用CANNBot从0到1生成第一个昇腾算子。从环境搭建到算子运行,全程Agent驱动:自动设计方案、编写代码、审查质量,最终输出包含Kernel和Tiling的可编译的算子代码,让Ascend C算子开发触手可及。
CANN开源社区Runtime仓链接:https://gitcode.com/cann/runtime
CANN开源社区ops-transformer仓链接: https://gitcode.com/cann/ops-transformer
CANN开源社区hccl仓链接: https://gitcode.com/cann/hccl
而SP是按照输入数据的序列长度的维度分的,涉及到的通信主要是正向一次的KV矩阵的AllGather与反向一次的KV矩阵梯度的ReduceScatter。总结一下就是,Attention阶段的序列并行,在模型训练的前向传播中,主要涉及到的集合通信操作有二,一是计算注意力矩阵A′时对于所有序列并行节点上矩阵K的AllGather操作,二是计算输出矩阵O时对于所有序列并行节点上矩阵V的AllGather
12月24日19点锁定直播间。
进入社区互动讨论,获取往期材料,赢取社区好礼~ https://gitcode.com/org/cann/discussions/80 B站直播预约: 点击预约
CANN
——CANN
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net