2501_94317725 个人主页

@2501_94317725

2501_94317725

2025-11-18 19:38:26 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

高性能计算架构下的算子深度解析：ops-nn 库在低精度推理中的执行演进

ops-nn库是 CANN 框架中实现 INT8 量化推理的关键组件。其与 FP32 版本的实现差异，核心在于引入了对量化参数（Scale/ZeroPoint）的显式管理混合精度中间结果的处理，以及高效的再量化机制。架构师需要深入理解这些差异，才能在模型部署时，通过合理的算子融合和 Kernel 优化，充分释放昇腾 NPU 在 INT8 精度下的计算潜力，实现推理性能和精度的最佳平衡。要深入研究这

#cnn

高性能计算架构下的算子深度解析：ops-nn 库在低精度推理中的执行演进

#cnn

深度解构异构算力引擎：基于 GE 与 Runtime 的多流异步调度模型

昇腾 NPU 上的多流并发执行是实现高吞吐率和低延迟推理的关键。通过深入研究 CANN 框架，特别是 AIR 编译器的设计，我们可以看到异步调度模型是建立在精细的流管理、依赖分析和同步原语之上的。AIR 框架作为中间表示层，有效地将上层应用的需求转化为 NPU 可执行的、高度并行的异步指令流。开发者应充分理解 CANN Runtime 提供的异步 API，并结合 AIR 的优化能力，设计出能够最大

#架构

深度解构异构算力引擎：基于 GE 与 Runtime 的多流异步调度模型

#架构

深度解构异构算力引擎：基于 GE 与 Runtime 的多流异步调度模型

#架构

深度解构：基于 metadef 的计算图元数据定义与异构算子集成架构

metadef（Metadata Definition）是CANN框架中用于描述算子元数据和实现逻辑的抽象层。它扮演着“桥梁”的角色，将上层框架（如MindSpore的算子描述）与底层CANN执行引擎（TBE/AI Core）的实现细节解耦。插件化的核心在于通过定义接口和数据结构，而非直接修改核心引擎代码来实现功能的扩展。在CANN的语境下，一个“算子插件”本质上就是一套遵循特定接口规范的实现集合

#架构

深度解构：基于 metadef 的计算图元数据定义与异构算子集成架构

#架构

异构计算资源治理：深度解析 runtime 架构下的设备发现与生命周期管理协议

的自动设备发现机制是昇腾计算平台“开箱即用”体验的核心保障。高度抽象：屏蔽了复杂的 PCIe 拓扑和底层驱动调用细节。鲁棒性：结合健康检查机制，确保只有就绪的硬件参与计算。标准化：为上层框架（如 MindSpore 或 PyTorch）提供了统一的逻辑设备视图。对于希望深入了解昇腾算力底层的开发者，建议深入研读CANN 组织下的这一开源仓库。理解了设备发现，就掌握了开启昇腾高效计算大门的钥匙。本文

#人工智能 #缓存 #架构

异构计算资源治理：深度解析 runtime 架构下的设备发现与生命周期管理协议

#人工智能 #缓存 #架构

协同演进的核心逻辑：CANN 社区治理架构与 SIG 分布式运作深度解析

CANN 社区的community仓库不仅是一堆文档的集合，它是一套精密的软件工程治理系统。通过将治理逻辑代码化、透明化，CANN 组织成功吸引了大量开发者参与到昇腾底层的建设中。无论你是想贡献一个高性能算子，还是希望参与编译器优化，community 仓库都是你开启昇腾开发者之旅的第一站。在这里，每一行文档、每一个 SIG 组的成立，都在为构建万物 AI 的算力底座贡献力量。欢迎加入我们，在 A

#架构

共 115 条

请选择