
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
面对这一挑战,客户参考了昇腾CANN开源算子源码仓ops-nn中高性能CrossEntropyLoss算子的实现,该算子已经具备高性能的CE Loss交叉熵损失函数计算能力,客户在此基础上,融入了ZLoss和lseForZLoss计算,分别用于计算辅助损失ZLoss和ZLoss场景下输出给反向传播的值。这两个损失函数的原始实现存在显著的性能瓶颈——它们的计算由一系列串行的小Vector算子构成,导
为了方便广大开发者使用昇腾环境进行大模型的微调、续训,即将开源的cann-recipes-train仓库,针对LLM与多模态模型训练业务中的典型模型、算法,提供基于CANN平台的优化样例,帮助开发者简单、快速、高效地使用CANN平台进行模型训练。然而,开发者在实际训练过程中,常常面临模型适配难、算法优化复杂、硬件资源利用率低等难题。深入讲解 DeepSeek-R1-671B模型的 RL 训练全流程
随着DeepSeek系列模型的持续演进,昇腾也在不断探索推理预处理阶段中MLA的计算加速技术,通过VV融合(多个Vector算子融合),进一步提升MLA预处理阶段的计算效率。Q在经过RmsNorm后,进入Q升维矩阵做矩阵乘,升维后每个token变为128个Head,每个Head的HeadDim为192。DeepSeekV3火爆全球的同时,针对DeepSeek系列模型的计算优化思路也在不断探索泛化中

随着昇腾CANN全面开源开放,昇腾在和客户联创达成商业目标的过程中自身也在不断成长进步,一方面CANN吸纳了客户实践中的声音,对易用性、功能满足度、性能等层面积极改进;另一方面客户也将自身的一部分实践内容分享贡献到CANN开源社区,进一步推动了CANN的生态满足度。我们将这过程中诞生的新功能特性、算子开发实践、推理和训练部署实践总结成了20篇文章分享给大家,相信开发者们能通过这些文章有所借鉴和收获
随着昇腾CANN全面开源开放,昇腾在和客户联创达成商业目标的过程中自身也在不断成长进步,一方面CANN吸纳了客户实践中的声音,对易用性、功能满足度、性能等层面积极改进;另一方面客户也将自身的一部分实践内容分享贡献到CANN开源社区,进一步推动了CANN的生态满足度。我们将这过程中诞生的新功能特性、算子开发实践、推理和训练部署实践总结成了20篇文章分享给大家,相信开发者们能通过这些文章有所借鉴和收获
1. 自定义算子开发系列:算子Kernel直调极简编程实践**简介:**Kernel直调方式具备代码轻量化、开发直观便捷的优势,本文介绍了Ascend C异构混合编程和AscendOps模板化编程两种编程方式,在Kernel直调方式基础上进一步降低了算子开发实现和编译部署的难度。2. 自定义算子开发系列:AICPU Tiling下沉编程方式介绍。
1. 自定义算子开发系列:算子Kernel直调极简编程实践**简介:**Kernel直调方式具备代码轻量化、开发直观便捷的优势,本文介绍了Ascend C异构混合编程和AscendOps模板化编程两种编程方式,在Kernel直调方式基础上进一步降低了算子开发实现和编译部署的难度。2. 自定义算子开发系列:AICPU Tiling下沉编程方式介绍。
通常情况下,通信耗时约占E2E耗时的10%~30%,当存在更大通信域时,通信占比会更大。为了释放昇腾硬件算力,昇腾AI异构计算架构CANN发布更开放、更易用的CANN 7.0版本,全面兼容业界的AI框架、加速库和主流大模型,同时通过大颗粒算子深度融合、Kernel调度策略优化、通信并发流水等技术手段,解决大模型训练核心问题,使能大模型性能深度优化。1750亿参数量的GPT-3预训练大约需要3TB内

在保持模型能力的前提下,如何降低模型存储需求,如何降低模型计算时延,是模型开发者和性能优化专家研究的热点问题,而模型量化压缩优化是解决这些问题的最重要的手段之一。对模型优化的开发者来说,硬件资源通常比较有限,如何在有限的硬件资源中高效完成模型压缩的全过程,也是开发者重点关注的问题。欢迎关注昇腾CANN公众号,及时获取直播时间与观看链接,相信通过这次直播,大家会对AMCT的使用有更深入的了解,也能够







