
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本次直播聚焦昇腾NPU算子性能优化,带来三大实践案例:我们将拆解RmsNormQuant的逐级优化链路,展示访存密集型算子的完整加速方法;深入剖析Scalar如何影响昇腾NPU算子性能,通过四类优化手段降低耗时;揭秘MXFP8/FP4混合精度矩阵乘的Vector+Cube混合核实现方案,展示M值较小场景的性能提升与位操作实践。精彩干货不容错过,立即预约直播吧!

B站预约链接:点击跳转

昇腾950迎来全新Regbase编程,它将Vector编程的粒度精细到寄存器级,进一步释放硬件性能潜力,提升编程灵活性与执行效率。为帮助开发者更好地掌握这一特性,本次直播将系统解析Regbase编程的核心调优技巧,并结合性能调优工具FlashVF展开全流程实操教学,助力开发者建立底层调优思维,高效释放芯片算力。

B站预约链接:点击跳转

二是为算子开发者与算法研究者提供可灵活组合与扩展的高性能实现单元,使其能够在已有工程沉淀的基础上快速搭建满足业务需求的定制化算子,将新算子从算法构想到可用版本的开发周期由周级压缩至小时级。1、泛化融合场景生成能力:当前的算子生成方式是基于cann-samples仓中已有的高性能实现做有限的扩展及开发,仅局限于固定的Matmul + ElementWise 组合场景,不具备泛化融合场景的算子生成能力

HiFloat8 Cast 算子在 Atlas A2/A3 昇腾 NPU 上为 PyTorch 实现 FP16/BF16 ↔ HiFloat8 双向转换,通过半空间 LUT、动态 tiling 和 DataCopy 分支优化,在大数据量下单方向吞吐稳定在 4 GB/s 量级——接近当前软件查表实现的吞吐上限。Ascend 950系列产品 已具备原生 HiFloat8 硬件能力,本算子主要面向尚无该

HiFloat8 Cast 算子在 Atlas A2/A3 昇腾 NPU 上为 PyTorch 实现 FP16/BF16 ↔ HiFloat8 双向转换,通过半空间 LUT、动态 tiling 和 DataCopy 分支优化,在大数据量下单方向吞吐稳定在 4 GB/s 量级——接近当前软件查表实现的吞吐上限。Ascend 950系列产品 已具备原生 HiFloat8 硬件能力,本算子主要面向尚无该

HiFloat8 Cast 算子在 Atlas A2/A3 昇腾 NPU 上为 PyTorch 实现 FP16/BF16 ↔ HiFloat8 双向转换,通过半空间 LUT、动态 tiling 和 DataCopy 分支优化,在大数据量下单方向吞吐稳定在 4 GB/s 量级——接近当前软件查表实现的吞吐上限。Ascend 950系列产品 已具备原生 HiFloat8 硬件能力,本算子主要面向尚无该

深入了解ATVOSS!完成算子端到端全流程实践(Torch),实现Vector算子性能调优

开营仪式上,复旦大学计算与智能创新学院副教授、开源社团指导老师陈碧欢,CANN 开源社区技术指导委员会(TSC)委员田军、昇腾产品管理总监王晓雷、业务招聘经理王磊及CANN高校生态经理武嘉伟等多位华为专家出席活动。








