
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本次直播HCCL集合通信专用引擎CCU技术原理入手,讲解CCU的关键技术和CCU对昇腾芯片带来的改变。以8Pfull-mesh拓扑场景为例介绍CCU的开发使用和收益。

模型的性能很大程度上由算子的性能决定。本次直播将对网络中常见重点算子的优化思路与实现过程进行拆解,帮助开发者清晰理解算子从基础实现到高效优化的完整路径,充分释放昇腾下一代硬件的澎湃性能,提升模型性能。

聚焦 CANN 下一代芯片算子开发全链路,深度拆解Cube/Vector 模板库、算子直调、仿真工具核心能力,解锁下一代芯片新特性适配秘籍。助开发者降门槛、提效率,轻松释放芯片澎湃算力!

CANN 算子开发全链路体验升级

Ascend950是昇腾新一代芯片,在继承上一代芯片优势的同时,在计算/通信等方面进行了如ND2NZ、CV融合、SIMT、UB、CCU等多项突破性改进。

Profiling是开发者进行NPU性能调优的重要工具,本次课程向开发者介绍下一代芯片面向整网和算子性能调优提供的新特性。

作为PyPTO系列的最后一讲,本次分享聚焦大模型的融合算子的开发全流程;从算子设计,到算子开发,再到性能优化,展现PyPTO的实操风采。

PyPTO Toolkit是一款PyPTO框架全流程辅助工具,提供包括编译、运行时状态的可视化、算子开发作业流的作业能力,使能开发者快速建立对PyPTO框架的理解,提升算子开发和调试调优效率。

PyPTO 是一种简化算子和模型开发过程的同时兼顾高性能的编程框架,通过将高层次的Tensor 计算图转成自动并行的 Tile 的计算来获得高效代码。

作为 PyPTO 系列分享的第一讲,本次分享将为开发者介绍 PyPTO 的基本概念与环境安装,让开发者能够写出 PyPTO 的 Hello, World.








