logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

HCCL集合通信专用引擎CCU技术介绍

本次直播HCCL集合通信专用引擎CCU技术原理入手,讲解CCU的关键技术和CCU对昇腾芯片带来的改变。以8Pfull-mesh拓扑场景为例介绍CCU的开发使用和收益。

文章图片
如何探索下一代硬件的性能天花板?

模型的性能很大程度上由算子的性能决定。本次直播将对网络中常见重点算子的优化思路与实现过程进行拆解,帮助开发者清晰理解算子从基础实现到高效优化的完整路径,充分释放昇腾下一代硬件的澎湃性能,提升模型性能。

文章图片
加速开发,提升效率的必备利器

聚焦 CANN 下一代芯片算子开发全链路,深度拆解Cube/Vector 模板库、算子直调、仿真工具核心能力,解锁下一代芯片新特性适配秘籍。助开发者降门槛、提效率,轻松释放芯片澎湃算力!

文章图片
CANN 算子开发全链路体验升级

CANN 算子开发全链路体验升级

文章图片
面向下一代硬件,CANN技术架构的变与不变

Ascend950是昇腾新一代芯片,在继承上一代芯片优势的同时,在计算/通信等方面进行了如ND2NZ、CV融合、SIMT、UB、CCU等多项突破性改进。

文章图片
面向下一代硬件的性能调优

Profiling是开发者进行NPU性能调优的重要工具,本次课程向开发者介绍下一代芯片面向整网和算子性能调优提供的新特性。

文章图片
CANN NEXT系列 | PyPTO:模型融合算子实操

作为PyPTO系列的最后一讲,本次分享聚焦大模型的融合算子的开发全流程;从算子设计,到算子开发,再到性能优化,展现PyPTO的实操风采。

文章图片
CANN NEXT系列 | PyPTO:IDE可视化实操

PyPTO Toolkit是一款PyPTO框架全流程辅助工具,提供包括编译、运行时状态的可视化、算子开发作业流的作业能力,使能开发者快速建立对PyPTO框架的理解,提升算子开发和调试调优效率。

文章图片
CANN NEXT PyPTO:Tensor 的算子编程范式

PyPTO 是一种简化算子和模型开发过程的同时兼顾高性能的编程框架,通过将高层次的Tensor 计算图转成自动并行的 Tile 的计算来获得高效代码。

文章图片
CANN NEXT系列 | PyPTO:HelloWorld

作为 PyPTO 系列分享的第一讲,本次分享将为开发者介绍 PyPTO 的基本概念与环境安装,让开发者能够写出 PyPTO 的 Hello, World.

文章图片
到底了