logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PyPTO 编程范式深度解析:面向达芬奇架构的高性能算子开发之道

在异构计算领域,PyPTO(Parallel Tensor/Tile Operation)不仅仅是一个编程接口,它代表了一种从传统的标量计算向张量计算跃迁的编程范式。它是连接上层深度学习框架算子逻辑与底层达芬奇架构(Da Vinci Architecture)硬件能力的中间层协议。

#transformer#深度学习#人工智能
解构 ops-transformer:面向万亿参数大模型的 NPU 加速原语

这种设计直接通过 NPU 的 MTE(数据搬运引擎)与 Vector/Cube(计算引擎)的流水线并行,掩盖了数据访问延迟。在处理每个分块时,算子在寄存器中维护局部的最大值(Max)和指数和(SumExp)。在 Transformer 架构主导的大模型时代,计算瓶颈已从单纯的 FLOPs(浮点运算次数)转移到了 Memory Wall(内存墙)。但在长时间生成过程中,这会导致严重的内存碎片。在大模

#transformer#深度学习#人工智能
深度剖析 ops-transformer:面向大模型的 NPU 加速库与极致性能优化

为了支持运行时的动态调整,算子使用特定的结构体在 Host 和 Device 之间传递 Tiling 参数。// Transformer 核心算子 Tiling 配置结构// 基础维度信息// 针对 NPU Cube Unit 优化的分块参数// M 轴分块大小 (如 128)// N 轴分块大小 (如 128)// K 轴分块大小 (如 64)// 内存地址偏移量,用于支持非连续 KV Cach

#transformer#深度学习#人工智能
深度解析 ATVOSS:面向 NPU 的 TVM 编译后端与张量优化系统

在异构计算的编译链路中,ATVOSS 扮演着“硬件特性注入者”的角色。它位于 TVM 编译栈的后端,负责承接前端(Relay)优化后的中间表示,并将其 Lowering(下降)为符合 CANN 架构标准的高性能算子代码。ATVOSS 的核心价值在于弥合了通用 Tensor IR 与专用 NPU 硬件架构之间的语义鸿沟。

#transformer#深度学习#人工智能
Prometheus自定义指标实现方案:技术选型与实战评估

Prometheus 是一款云原生监控解决方案,核心功能包括指标采集、存储、查询和告警。其设计定位是云原生环境下的可观测性平台,通过拉取模型获取目标服务的指标数据。核心技术特点:基于 HTTP 的指标暴露接口、PromQL 查询语言、时间序列数据库存储、Alertmanager 告警通知。

#prometheus
CANN 分布式计算基石:HCCL 通信机制与 Runtime 协同调度深度解析

模型并行(Model Parallelism)成为了解决这一瓶颈的必经之路,它要求 Runtime 系统能够跨越物理边界,调度一张分布在多个 NPU 上的超级计算图。这种分组机制确保了通信流量的隔离与有序。HCCL(Huawei Collective Communication Library)是 CANN 架构中专门负责多机多卡通信的组件,它屏蔽了底层硬件传输协议的差异,向上层提供统一的集合通信

#transformer
CANN Runtime:AI 处理器的运行核心与计算编排中枢

当 CANN 提供的内置算子库无法满足特定算法需求时,Runtime 支持开发者引入自定义算子,以应对前沿研究或特定业务场景。统一的算子接口:Runtime 为自定义算子提供了标准的开发和注册接口。开发者可以使用 Ascend C 等编程语言,结合 AI 处理器特有的指令集,高效地编写针对 AI 处理器的 Kernel 代码。算子集成流程:自定义算子通过 CANN 提供的工具链(如 ATC 或 M

#人工智能
CANN 部署策略核心:INT8 量化计算的精度校准与 ops-nn 算子协同

ops-nn 库通过精细化的 INT8 实现,极大地提升了推理性能。这种性能的释放是以严格的量化参数管理和对精度敏感操作(如 LayerNorm)的精度提升机制为代价的。成功的 INT8 部署依赖于量化校准的质量,以及 Runtime 准确地识别和执行这些混合精度的算子链。CANN 组织链接ops-nn 仓库链接。

#深度学习#transformer
深入内核:CANN Driver 驱动架构与异构资源管理机制解析

在异构计算体系中,驱动程序(Driver)运行在操作系统的高特权级(Kernel Space),直接掌控着 NPU 芯片的物理寄存器与总线控制权。它通过一组定义严谨的ioctl系统调用接口,向用户态的计算运行时(Runtime)提供服务,解决了通用 CPU 与专用加速器之间指令架构不兼容、内存空间隔离以及同步原语缺失的核心矛盾。

#transformer#深度学习#人工智能
深入异构计算心脏:CANN Driver 驱动架构解析与软硬协同机制

在异构计算的软件栈中,Driver(驱动层)扮演着“神经中枢”的关键角色。它向下直接操控物理硬件的寄存器与总线,向上为 Runtime 和计算图引擎提供抽象化的资源句柄。本文将深入剖析 CANN Driver 如何通过内存隔离、任务调度流水线及互联拓扑管理,释放 AI 处理器的极致算力。

#深度学习#transformer#人工智能
    共 53 条
  • 1
  • 2
  • 3
  • 6
  • 请选择