登录社区云,与社区用户共同成长
邀请您加入社区
它通过重组循环内的操作顺序,让不同迭代的计算与内存传输重叠执行,从而实现计算与通信的并行化。在昇腾 NPU 算子开发中,共享内存的高效利用是突破性能瓶颈的关键:一方面,昇腾 NPU 将内存划分为多个层次并存在严苛的容量上限,内存资源极度稀缺,而计算过程中需要创建大量临时缓冲区用于存储中间计算结果。TileLang-Ascend Developer模式的发布,标志着一个关键的转折点:昇腾NPU的高性
直播时间2026年1月29日19:00 - 20:00B站/微信视频号搜索【昇腾CANN】观看直播,参与直播互动可获CANN周边小礼品。今天我们聚焦LLM强化学习入门,专门为有部分技术基础、并且对大模型强化学习感兴趣的朋友准备。这次会带大家解读GRPO的核心原理,然后从基础的环境配置手把手教起,再到实际的模型训练实操,还会分享实用的调参技巧,把入门阶段的核心能力一次性拿捏。我们都知道大语言模型现在
项目为车辆检测,所用模型为YOLO11X,最终实现效果为实时检测视频流。本章节介绍了将要部署到香橙派AI Pro的车辆检测工程文件,但是可以看到检测帧数还是比较低,接下来将会使用AIPP和DVPP进行进一步的优化。
本文分享了基于华为CANN架构开发NLP特化算子的实践经验。针对大语言模型微调中"GELU+矩阵乘法"的计算瓶颈,作者采用CANN的TBE工具链开发了融合算子gelu_matmul_fusion,通过向量单元计算GELU、立方单元处理矩阵乘法,并优化数据本地化和计算调度,最终使算子性能提升138%,端到端训练速度提高45%。文章详细介绍了从需求分析、技术选型到算子编码、编译部署
AscendC算子安全编程实战摘要 本文基于昇腾CANN训练营经验,深度解析AscendC算子开发中的安全编程技术,提出边界检查、异常处理、内存安全三大核心防护策略,并通过Sigmoid算子案例展示企业级安全实践: 边界检查机制 多层级验证架构(快速检查→全面检查→偏执检查) 性能开销实测:全面检查仅增加9.7%耗时,可拦截100%内存越界 异常处理框架 分层模型(设备侧返回错误码+主机侧C++异
本文介绍什么是算子,算子有哪些基本特征。
本文介绍了昇腾CANN提供的模型转换工具ATC,介绍了其功能、架构,并以具体样例介绍了该工具的基本使用方法以及常用设置。
是为大语言模型(LLM)高效推理定制的量化感知复合算子,由 “矩阵乘(Mm)- 反量化(Deq)-Swiglu 激活 - 量化(Quant)- 矩阵乘(Mm)- 反量化(Deq)” 等操作串联组成,核心是在保证推理精度的前提下,通过低精度计算(int8)和硬件加速大幅降低内存与计算开销,适配资源受限场景的 LLM 部署。
带来 RWKV 端侧智能体基于 CANN 的推理加速技术分享。依托 CANN 底层能力,双方联合打造 cann-ops-rwkv、rwkv7-acl 等共建项目,实现算子开发、多框架适配与推理优化,适配深圳智能硬件、机器人等产业需求,也为开发者参与开源共建提供路径,推动 AI 技术加速落地。基于 CANN 异构计算优势,团队从模型、架构、多模态融合多维度优化,通过稀疏计算、算子融合、量化压缩等手段
面对这一挑战,客户参考了昇腾CANN开源算子源码仓ops-nn中高性能CrossEntropyLoss算子的实现,该算子已经具备高性能的CE Loss交叉熵损失函数计算能力,客户在此基础上,融入了ZLoss和lseForZLoss计算,分别用于计算辅助损失ZLoss和ZLoss场景下输出给反向传播的值。这两个损失函数的原始实现存在显著的性能瓶颈——它们的计算由一系列串行的小Vector算子构成,导
随着DeepSeek系列模型的持续演进,昇腾也在不断探索推理预处理阶段中MLA的计算加速技术,通过VV融合(多个Vector算子融合),进一步提升MLA预处理阶段的计算效率。Q在经过RmsNorm后,进入Q升维矩阵做矩阵乘,升维后每个token变为128个Head,每个Head的HeadDim为192。DeepSeekV3火爆全球的同时,针对DeepSeek系列模型的计算优化思路也在不断探索泛化中
在AI算子开发中,性能优化与硬件利用率是核心关注点。华为昇腾(Ascend)平台的CANN(Compute Architecture for Neural Networks)提供了一套高效的算子编程框架,使开发者能够充分发挥NPU的计算能力。本文将从算子设计、Tiling策略、核函数实现到临时内存管理等方面,对华为CANN算子开发进行深入解析,并结合矢量算子和bfloat16数据类型的实现案例,为
CANN
——CANN
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net