2401_88937325 个人主页

@2401_88937325

2401_88937325

2025-10-28 19:15:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CANN pto-isa：PTO 性能优化的指令调度与硬件特化

摘要：昇腾NPU通过PTO（Portable Tile Operator）虚拟指令集实现跨硬件算子兼容，解决AI编译器直接生成硬件机器码的维护难题。PTO定义90+标准Tile操作，由Graph Compiler将计算图转换为PTO指令，经融合、Tile切分和调度优化后，映射为NPU机器码。调度策略（如流水线和指令重排）显著影响性能，如Transformer模型吞吐可差3倍。开发中需注意同步屏障

#性能优化

CANN pto-isa：PTO 性能优化的指令调度与硬件特化

#性能优化

CANN pto-isa：PTO 性能优化的指令调度与硬件特化

#性能优化

CANN pto-isa：为什么 AI 编译需要一层虚拟指令集

这篇文章深入解析了昇腾NPU编译器中PTO虚拟指令集的关键作用。文章首先指出直接生成物理指令会导致编译器后端与硬件强耦合，每次硬件迭代都需要重写整个后端。随后详细介绍了PTO作为中间抽象层的设计理念，它通过90+条标准Tile级操作实现了计算语义与硬件实现的解耦。文章还展示了Graph Compiler如何将计算图转换为PTO指令序列的具体流程，包括Tile划分、指令生成和调度优化等关键步骤。这种

#人工智能

CANN pto-isa：为什么 AI 编译需要一层虚拟指令集

#人工智能

CANN pto-isa：为什么 AI 编译需要一层虚拟指令集

#人工智能

CANN pto-isa：PTO 虚拟指令集里的 90+ Tile 操作怎么设计的

昇腾NPU引入PTO虚拟指令集作为中间抽象层，将计算逻辑与硬件执行解耦。该体系包含90+标准Tile级操作指令，覆盖计算、数据搬运、控制流等场景。Graph Compiler通过IR优化、Tile分块等步骤生成PTO指令序列，再映射为具体芯片的微指令。这种设计使算子开发无需关注底层硬件差异，在Transformer等场景中，PTO能自动优化指令序列，提升计算效率。

CANN pto-isa：PTO 虚拟指令集里的 90+ Tile 操作怎么设计的

CANN pto-isa：Transformer 推理编译链路：从 PyTorch 到昇腾 NPU 执行

摘要本文揭示了昇腾NPU编译链路中的关键设计——PTO虚拟指令集。作为连接AI编译器与硬件执行的桥梁，PTO指令集通过定义90+标准Tile级操作，实现了计算图到硬件指令的抽象转换。文章首先分析了直接生成硬件指令的困境，指出PTO通过解耦编译器前端与硬件细节，支持跨代际昇腾芯片的兼容性。随后详细阐述了PTO的核心定位和指令格式，说明其如何承接不同框架的输出。重点剖析了Graph Compiler

#transformer #pytorch #深度学习

CANN pto-isa：Transformer 推理编译链路：从 PyTorch 到昇腾 NPU 执行

#transformer #pytorch #深度学习

共 234 条

请选择