登录社区云,与社区用户共同成长
邀请您加入社区
B站预约链接:点击预约
B站预约链接:点击预约
B站预约链接: 点击预约
在DeepSeek V4背后,昇腾CANN都有哪些黑科技?欢迎前往昇腾CANN B站官方账号观看直播~很高兴和哔哩哔哩百万up主。
摘要: DeepSeek V4的发布标志着中国AI产业迈向算力自主可控的关键一步。该模型采用国产优先战略,脱离英伟达CUDA生态,全面适配华为昇腾芯片及CANN Next框架。其万亿参数MoE架构与DSA2稀疏注意力技术显著降低硬件依赖,结合华为优化的算子库与分布式训练方案,实现了性能反超。实测显示,昇腾950PR推理性能达英伟达H20的2.87倍,成本降至三分之一。此举打破CUDA垄断,激活国产
B站直播预约:预约链接
B站直播预约链接:点击预约
多模态生成推理优化的"三板斧":算得轻、算得少、算得巧 随着多模态生成模型参数量与序列长度持续攀升,高分辨率长时视频生成的推理面临的长序列挑战日益严峻。如何在保证生成质量的前提下,走通高性能与低占存的算法与工程化路径? 本次直播以典型开源模型为例,带大家了解如何在昇腾上实践多模态生成的典型优化:稀疏Attention模式设计、量化Attention低精度策略、分布式
随着大模型训推规模持续增长,8-bit 数据格式已成为提升计算效率、降低显存占用和优化部署成本的重要方向。HiFloat8(HiF8)凭借大动态范围和灵活的精度表达,为大模型在低比特场景下兼顾精度与性能提供了新的路径。 HiF8的全面表达系统性地支持了大模型的低比特训推,其中的关键策略已被沉淀为可复现、可迁移的开源参考实现。在推理侧,提高效率的关键不只是“把权重压到8-bit”,更要将
Triu算子作为基础矩阵操作的重要组成,在深度学习、科学计算和工程应用中发挥着不可替代的作用。其简洁而强大的功能设计,结合广泛的硬件支持,使其成为现代计算生态系统中不可或缺的一环。通过深入了解Triu算子的原理、实现和应用,开发者可以更好地利用这一工具解决实际问题,推动技术创新和性能优化。随着计算技术的不断发展,Triu算子及其相关技术将继续演进,为更广泛的应用场景提供支持。无论是在传统的科学计算
FillDiagonalV2算子作为cann计算平台中张量操作工具集的重要组成部分,提供了高效、灵活的对角线填充功能。它支持多种数据类型、多种填充模式,并在多种硬件产品上进行了优化实现。随着人工智能和科学计算应用的不断发展,对高效张量操作的需求将持续增长。FillDiagonalV2算子的设计和实现反映了对实际应用需求的深刻理解,它的持续优化和扩展将为更广泛的计算场景提供支持。对于开发者而言,深入
当 Coding Agent 一次写出几十个算子已成为常态,"什么算优质算子"变成了一个单一维度无法评估准确的问题:能不能过编译只是入场券,精度是否经得起验证、换个 shape 换个 dtype 是否仍然稳定、性能离硬件上限还有多远,每一项都决定了这个算子是否值得真正部署。面对这样的多维需求,整个学界与产业界都在期待一把统一的尺子。 CANN Bench 由学界测试领域专家与C
二是为算子开发者与算法研究者提供可灵活组合与扩展的高性能实现单元,使其能够在已有工程沉淀的基础上快速搭建满足业务需求的定制化算子,将新算子从算法构想到可用版本的开发周期由周级压缩至小时级。1、泛化融合场景生成能力:当前的算子生成方式是基于cann-samples仓中已有的高性能实现做有限的扩展及开发,仅局限于固定的Matmul + ElementWise 组合场景,不具备泛化融合场景的算子生成能力
摘要 DeepSeek-V4 在通用编程领域表现惊艳,但当场景转向 NPU Ascend C 融合算子开发——这类高度依赖硬件架构知识和性能调优经验的垂直领域时,它的表现又会如何?本文基于 CANNBot + DeepSeek-V4,以大模型场景中广泛采用的 MXFP8 MatMul + Add 场景为例,端到端自动生成了融合算子工程生成并完成了精度、性能测试。核心成果如下: 30 分
cann-samples是CANN社区提供的高性能实操样例库,致力于为开发者提供可复用的优化方法论和最佳实践代码。本系列文章将陆续介绍仓库中的典型样例,分享我们在算子优化过程中的思考与经验。计算公式ci,j=∑g=0ceil(K/G)−1(scaleAi,g⋅scaleBg,j⋅∑k′=0G−1(ai,gG+k′⋅bgG+k′,j))c_{i, j} = \sum^{ceil(K/G)-1}_{g
cann-samples是CANN社区提供的高性能实操样例库,致力于为开发者提供可复用的优化方法论和最佳实践代码。本系列文章将陆续介绍仓库中的典型样例,分享我们在算子优化过程中的思考与经验。 本文将帮助你 理解MX量化的硬件加速机制:MX量化相较传统量化实现优势掌握性能建模方法:如何定量分析Bound类型,针对性优化,避免盲目调优理解核心优化思路:SWAT等关键策略的原理与应用了解TensorAP
随着大模型训练与推理、推荐系统及多模态应用等AI场景的爆发式发展,新一代AI芯片的算力突破已成为行业刚需。Ascend 950作为面向AI计算的新一代芯片,通过第三代DaVinci Core架构、灵衢互联技术以及MXFP4/MXFP8等低精度计算等特性支持,为AI应用提供了强大的算力底座。然而,硬件算力的充分释放离不开高效的软件栈支持。CANN作为昇腾AI处理器的异构计算架构,通过持续演进,已经形
为此,昇腾的解决思路是坚持底层架构创新,在虚拟指令集、运行时能力、编译器等坚持走自研突破,并兼容全球AI主流开源生态,同时推动CANN计算框架在架构层面,进行功能解耦与组件独立演进,从底层的硬件驱动到运行时,再到中间的编译器和上层的加速库,每一层都实现物理上的松耦合,各组件可独立升级和API的全面兼容。当CANN社区汇聚起来自各方的智慧,当开发者一次次在CANN上完成算子开发,当CANN与各大开源
今晚20点 很高兴和哔哩哔哩百万up主 @Git源宝 一起详解, 在DeepSeek V4背后,昇腾CANN都有哪些黑科技? 欢迎前往昇腾CANN B站官方账号观看直播~ 直播间链接:http://live.bilibili.com/23361884
文链接(链接跳转异常请到原文中查看):NPU DeepSeek-V4推理优化实践 直播回放链接:DeepSeek-V4昇腾首发:基于CANN的训推优化实践 DeepSeek团队发布了最新的模型DeepSeek-V4系列模型,包含DeepSeek-V4 Flash和DeepSeek-V4 Pro两种规格。通过Compressed Sparse Attention (CSA)和 Heavily Com
引言 在 AI 大模型时代,算子性能优化是提升整体训练和推理效率的关键。 TileLang 是一门面向高性能算子开发的领域特定语言(DSL),采用简洁直观的编程范式,让开发者能够以接近数学表达的方式描述计算逻辑。相比传统的手写算子开发,TileLang 大幅降低了开发门槛,使开发者能够更高效地完成高性能算子的开发与调优。 TileLang-Ascend 是 TileLang 针
算子性能优化是一项系统性工程,需要从核内和核间两个维度协同发力。本文通过 FA 和 SFA 两个实际案例,展示了从方法论到实践的完整优化路径。TileLang-Ascend在帮助开发者提高开发效率的同时,也提供了必备的性能调优能力。欢迎更多开发者加入高性能算子的建设。TileLang 社区已开放完整示例、性能脚本与优化指南,欢迎体验与贡献。
本文介绍了华为算子开发中张量形状(Shape)的核心概念与应用。形状以元组形式表示张量各维度大小,如(4,20,20,3)表示4张20x20像素的RGB图像。文章详细阐述了形状的物理意义、编程实现中的循环逻辑,以及Shape推导的两种模式:Follow模式和自定义InferShape函数。特别针对动态Shape场景,说明了ShapeRange推导的必要性,通过预估最大输出内存保证算子执行正确性。最
CANN
——CANN
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net