logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

模型量化与推理:ops-nn 库在 INT8 精度下的实现差异

ops-nn库是 CANN 框架中实现 INT8 量化推理的关键组件。其与 FP32 版本的实现差异,核心在于引入了对量化参数(Scale/ZeroPoint)的显式管理混合精度中间结果的处理,以及高效的再量化机制。架构师需要深入理解这些差异,才能在模型部署时,通过合理的算子融合和 Kernel 优化,充分释放昇腾 NPU 在 INT8 精度下的计算潜力,实现推理性能和精度的最佳平衡。要深入研究这

#cnn
模型量化与推理:ops-nn 库在 INT8 精度下的实现差异

ops-nn库是 CANN 框架中实现 INT8 量化推理的关键组件。其与 FP32 版本的实现差异,核心在于引入了对量化参数(Scale/ZeroPoint)的显式管理混合精度中间结果的处理,以及高效的再量化机制。架构师需要深入理解这些差异,才能在模型部署时,通过合理的算子融合和 Kernel 优化,充分释放昇腾 NPU 在 INT8 精度下的计算潜力,实现推理性能和精度的最佳平衡。要深入研究这

#cnn
NPU 上的多流并发执行:AIR 异步调度模型解析

昇腾 NPU 上的多流并发执行是实现高吞吐率和低延迟推理的关键。通过深入研究 CANN 框架,特别是 AIR 编译器的设计,我们可以看到异步调度模型是建立在精细的流管理、依赖分析和同步原语之上的。AIR 框架作为中间表示层,有效地将上层应用的需求转化为 NPU 可执行的、高度并行的异步指令流。开发者应充分理解 CANN Runtime 提供的异步 API,并结合 AIR 的优化能力,设计出能够最大

#架构
NPU 上的多流并发执行:AIR 异步调度模型解析

昇腾 NPU 上的多流并发执行是实现高吞吐率和低延迟推理的关键。通过深入研究 CANN 框架,特别是 AIR 编译器的设计,我们可以看到异步调度模型是建立在精细的流管理、依赖分析和同步原语之上的。AIR 框架作为中间表示层,有效地将上层应用的需求转化为 NPU 可执行的、高度并行的异步指令流。开发者应充分理解 CANN Runtime 提供的异步 API,并结合 AIR 的优化能力,设计出能够最大

#架构
NPU 上的多流并发执行:AIR 异步调度模型解析

昇腾 NPU 上的多流并发执行是实现高吞吐率和低延迟推理的关键。通过深入研究 CANN 框架,特别是 AIR 编译器的设计,我们可以看到异步调度模型是建立在精细的流管理、依赖分析和同步原语之上的。AIR 框架作为中间表示层,有效地将上层应用的需求转化为 NPU 可执行的、高度并行的异步指令流。开发者应充分理解 CANN Runtime 提供的异步 API,并结合 AIR 的优化能力,设计出能够最大

#架构
基于 metadef 的插件化设计:扩展算子支持的通用模式

metadef(Metadata Definition)是CANN框架中用于描述算子元数据和实现逻辑的抽象层。它扮演着“桥梁”的角色,将上层框架(如MindSpore的算子描述)与底层CANN执行引擎(TBE/AI Core)的实现细节解耦。插件化的核心在于通过定义接口和数据结构,而非直接修改核心引擎代码来实现功能的扩展。在CANN的语境下,一个“算子插件”本质上就是一套遵循特定接口规范的实现集合

#架构
基于 metadef 的插件化设计:扩展算子支持的通用模式

metadef(Metadata Definition)是CANN框架中用于描述算子元数据和实现逻辑的抽象层。它扮演着“桥梁”的角色,将上层框架(如MindSpore的算子描述)与底层CANN执行引擎(TBE/AI Core)的实现细节解耦。插件化的核心在于通过定义接口和数据结构,而非直接修改核心引擎代码来实现功能的扩展。在CANN的语境下,一个“算子插件”本质上就是一套遵循特定接口规范的实现集合

#架构
深度解读 ascend-host-runtime:揭秘算力资源自动发现的底层逻辑

的自动设备发现机制是昇腾计算平台“开箱即用”体验的核心保障。高度抽象:屏蔽了复杂的 PCIe 拓扑和底层驱动调用细节。鲁棒性:结合健康检查机制,确保只有就绪的硬件参与计算。标准化:为上层框架(如 MindSpore 或 PyTorch)提供了统一的逻辑设备视图。对于希望深入了解昇腾算力底层的开发者,建议深入研读CANN 组织下的这一开源仓库。理解了设备发现,就掌握了开启昇腾高效计算大门的钥匙。本文

#人工智能#缓存#架构
深度解读 ascend-host-runtime:揭秘算力资源自动发现的底层逻辑

的自动设备发现机制是昇腾计算平台“开箱即用”体验的核心保障。高度抽象:屏蔽了复杂的 PCIe 拓扑和底层驱动调用细节。鲁棒性:结合健康检查机制,确保只有就绪的硬件参与计算。标准化:为上层框架(如 MindSpore 或 PyTorch)提供了统一的逻辑设备视图。对于希望深入了解昇腾算力底层的开发者,建议深入研读CANN 组织下的这一开源仓库。理解了设备发现,就掌握了开启昇腾高效计算大门的钥匙。本文

#人工智能#缓存#架构
昇腾万里,智领未来:CANN 社区治理架构与 SIG 运作模式深度解读

CANN 社区的community仓库不仅是一堆文档的集合,它是一套精密的软件工程治理系统。通过将治理逻辑代码化、透明化,CANN 组织成功吸引了大量开发者参与到昇腾底层的建设中。无论你是想贡献一个高性能算子,还是希望参与编译器优化,community 仓库都是你开启昇腾开发者之旅的第一站。在这里,每一行文档、每一个 SIG 组的成立,都在为构建万物 AI 的算力底座贡献力量。欢迎加入我们,在 A

#架构
    共 115 条
  • 1
  • 2
  • 3
  • 12
  • 请选择