登录社区云,与社区用户共同成长
邀请您加入社区
原文链接(链接跳转异常请到原文中查看):NPU DeepSeek-V4推理优化实践 直播回放链接:DeepSeek-V4昇腾首发:基于CANN的训推优化实践 DeepSeek团队发布了最新的模型DeepSeek-V4系列模型,包含DeepSeek-V4 Flash和DeepSeek-V4 Pro两种规格。在DeepSeek-V3.2的稀疏Attention(DeepSeek Sparse Atte
DeepSeek团队发布了最新的模型DeepSeek-V4系列模型,包含DeepSeek-V4 Flash和DeepSeek-V4 Pro两种规格。在DeepSeek-V3.2的稀疏Attention(DeepSeek Sparse Attention)的基础上,在不同层间进一步通过KV Cache滑窗 (Window Cache) 和压缩算法 (KV Cache Compress),减少Atte
2026年4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。除了底层架构的升级,昇腾950超节点从基础器件、协议算法到光电互联,实现了系统级的创新突破,支持用户以
2026年4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持D
本文详细介绍了华为Atlas200边缘设备的开箱配置指南,从系统基础设置到CANN工具链安装,再到使用Anaconda和MindStudio搭建开发环境,最后完成ONNX模型转换并运行第一个AI模型。文章特别强调了避坑技巧和常见问题解决方案,帮助开发者快速上手昇腾生态。
本文深入解析了CANN项目中ATC工具生成OM模型文件的二进制序列化过程。OM模型作为AI计算架构中的关键环节,采用自定义二进制格式设计,以实现极致性能、硬件优化和自包含特性。文章详细剖析了文件头结构、模型描述序列化和权重数据打包等核心算法实现,展示了OM格式在加载速度上的显著优势。同时提供了使用ATC工具生成OM文件、Python解析工具应用等实战内容,并针对版本兼容性、精度异常等常见问题给出解
本文深入解析了昇腾AI异构计算架构CANN的层次化设计,详细介绍了其五层抽象架构和三层逻辑架构的协同机制。通过实战案例展示了CANN在模型部署、性能优化和多模态处理中的核心价值,帮助开发者高效利用昇腾芯片的异构计算能力,提升AI应用的性能和开发效率。
本文系统阐述了深度学习核心算子矩阵乘法在昇腾NPU上的全链路优化方法。作者基于13年高性能计算经验,详细解析了从数学原理到硬件映射的优化体系,重点介绍了CANN软件栈通过分块策略、流水线并行和内存层级优化将NPU计算单元利用率从25%提升至85%的关键技术。文章包含完整的AscendC MatMul算子实现流程,涵盖基础实现到极致优化的五个阶段,并分享了千亿参数大模型训练中的典型性能陷阱解决方案。
系列直播回放及材料链接:CANN - 开源代码托管,代码协作 - AtomGit | GitCode 以前写算子要走写‑跑‑调‑测四步循环,常常调半天也达不到性能要求。 这次 CANN 把算子编程、运行时调度、性能调优三个环节一次性升级,助力开发者体验升级: 几行代码实现Transpose、Pad和Slice等搬运算子一次下发,批量调度,算子跑得更稳调试时直接看到卡在哪儿 从此不再为“搬运太多、同
PTO(Parallel Tile Operation)是昇腾 CANN 定义的一套面向 tile 编程的虚拟 ISA。如果你还不了解 PTO 的 Tile 概念和整体设计思路,推荐先阅读《浅谈昇腾虚拟指令集 PTO》系列。本文聚焦 PTO ISA 的通信扩展指令集——当计算从单卡走向多卡,数据搬运的故事就从”核内物流”升级成了”城际运输”。 一、单卡是工厂,多卡就是工业园区 前几篇文章里,我们把
在PTO的设计里面,AIV 通过 TPUT_AYSNC 指令,把搬运任务转换成向 SDMA 硬件提交的传输描述符——相当于你把包裹和地址填好,交给快递员,然后回去继续工作。),如果是极小块的数据和较短的传输距离,可能还不如你自己送得快。CCU 是950代际新增的集合通信处理器单元,更像一个专门的分拣中心,你把货扔过去,它在内部完成归拢和分发。从此,计算与通信不再是割裂的两个孤岛,而是统一编程模型下
CANN
——CANN
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net