
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
接口隔离:不直接暴露 TVM 的底层 primitives(如splitreorder),而是封装为面向 NPU 优化的高级原语(如bind_core版本锚定:针对不同版本的 TVM(如 v0.8, v0.10),ATVOSS 内部维护了多套适配逻辑,在编译初始化阶段自动检测环境并加载对应的调度模板。ATVOSS 的核心决策逻辑之一是“造轮子”还是“用轮子”。它必须在生成自定义代码和调用厂商库之间
在 AI 编译器的生态位中,扮演着至关重要的“翻译官”角色。它不仅是 TVM 开源框架与 CANN 异构计算平台之间的连接器,更是将高层张量表达(Tensor Expression)转化为底层硬件高效指令流的核心引擎。ATVOSS 通过扩展 TVM 的后端代码生成机制,实现了对 NPU 复杂存储层次和计算单元的精细化控制,使得开发者无需手写复杂的 CCE 代码即可获得接近手写算子的性能。
在 AI 编译器的生态位中,扮演着至关重要的“翻译官”角色。它不仅是 TVM 框架与 CANN 异构计算平台之间的连接器,更是将高层张量表达(Tensor Expression)转化为底层硬件高效指令流的核心引擎。ATVOSS 通过扩展 TVM 的后端代码生成机制,实现了对 NPU 复杂存储层次和计算单元的精细化控制。
ATVOSS 机制是 CANN 框架实现更广泛硬件兼容性和更高级别编程模型(如 TVM)的关键。它通过定制化的 Tensor Schedule,成功地将 TVM 的抽象调度能力转化为 NPU 架构下的最优硬件指令,弥合了通用编译器框架与特定异构硬件之间的性能鸿沟。CANN 组织链接ATVOSS 仓库链接。
循环神经网络(RNN)及其变体(LSTM, GRU)因其天然的时序依赖性,在并行计算架构上一直面临巨大的性能挑战。ops-nn 库中的算子并非简单的逻辑移植,而是针对 NPU 异构计算架构进行的深度定制。它通过算子融合、极致的片上内存管理以及混合精度量化策略,成功解决了序列计算中的“内存墙”问题,实现了高吞吐量的时序推理。
ops-nn 库通过精细化的 INT8 实现,极大地提升了推理性能。这种性能的释放是以严格的量化参数管理和对精度敏感操作(如 LayerNorm)的精度提升机制为代价的。成功的 INT8 部署依赖于量化校准的质量,以及 Runtime 准确地识别和执行这些混合精度的算子链。CANN 组织链接ops-nn 仓库链接。
这种设计直接通过 NPU 的 MTE(数据搬运引擎)与 Vector/Cube(计算引擎)的流水线并行,掩盖了数据访问延迟。在处理每个分块时,算子在寄存器中维护局部的最大值(Max)和指数和(SumExp)。在 Transformer 架构主导的大模型时代,计算瓶颈已从单纯的 FLOPs(浮点运算次数)转移到了 Memory Wall(内存墙)。但在长时间生成过程中,这会导致严重的内存碎片。在大模
为了支持运行时的动态调整,算子使用特定的结构体在 Host 和 Device 之间传递 Tiling 参数。// Transformer 核心算子 Tiling 配置结构// 基础维度信息// 针对 NPU Cube Unit 优化的分块参数// M 轴分块大小 (如 128)// N 轴分块大小 (如 128)// K 轴分块大小 (如 64)// 内存地址偏移量,用于支持非连续 KV Cach
在异构计算的编译链路中,ATVOSS 扮演着“硬件特性注入者”的角色。它位于 TVM 编译栈的后端,负责承接前端(Relay)优化后的中间表示,并将其 Lowering(下降)为符合 CANN 架构标准的高性能算子代码。ATVOSS 的核心价值在于弥合了通用 Tensor IR 与专用 NPU 硬件架构之间的语义鸿沟。
Prometheus 是一款云原生监控解决方案,核心功能包括指标采集、存储、查询和告警。其设计定位是云原生环境下的可观测性平台,通过拉取模型获取目标服务的指标数据。核心技术特点:基于 HTTP 的指标暴露接口、PromQL 查询语言、时间序列数据库存储、Alertmanager 告警通知。







