
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
面向昇腾AI处理器,聚焦高性能算子开发:基于AscendNPUIR进行编译接入与联创,融合编译器优化手段,并依托FlagOS社区拓展FlagTree TLE原语,最大化挖掘昇腾硬件潜力与编译能力,编写高性能算子。

深入了解ATVOSS!完成算子端到端全流程实践:(Torch),实现Vector算子性能调优

ATVOSS (Ascend C Templates forVector Operator Subroutines ) 是基于Ascend C开发的Vector算子模板库,致力于为昇腾硬件的Vector类融合算子,提供极简、高效、高性能、可拓展的编程方案。本课程带你从玩转ATVOSS,从架构入门到API详解,手把手教你用极简API开发高性能Vector算子。

介绍Triton Ascend昇腾亲和扩展接口设计原理,了解如何使用这些接口开发高性能算子。

聚焦社区任务中optimized_transducer算子,分享其核心开发思路与性能调优技巧,深入分享如何提升算子并行度、突破性能瓶颈,拆解高任务值算子的开发逻辑与实操要点,助力学习者快速掌握算子开发核心能力。

本课程基于样例详解Triton算子的编译流程,以及Triton Ascend如何通过编译优化在昇腾硬件上高效运行。

介绍Triton算子调试方法与性能检测工具,讲解高性能算子设计逻辑与具体实现流程。

介绍Triton整体架构与编程基础知识,学习Triton算子开发基本模式和常用接口,以及面向昇腾架构开发与迁移的关键点

系统讲解如何参与社区任务的全流程,并结合实际案例,深入解析 SignBitsUnpack 算子的开发过程。通过本课程,了解从认领任务到提交贡献的完整参与路径,掌握该算子的设计思路与实现细节,为后续参与社区开发打下扎实基础

真实算子案例拆解!从网络真实算子开发到新硬件特性使能,手把手带你搞定典型场景,学完就能直接上手项目实践!








