starlindream 个人主页

@starlindream

starlindream

2024-09-02 14:39:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

算子库版本管理：ops-nn 的兼容性设计

本文探讨了深度学习框架中算子库的版本管理与兼容性设计，以CANN的ops-nn算子库为例。针对硬件迭代和算法演进带来的兼容性挑战，ops-nn采用语义化版本策略和分支管理架构，通过严格的CI/CD流程确保版本质量。重点介绍了接口兼容性（ABI保证）、数据格式兼容性和依赖库管理三大设计策略，并提供了版本升级与回滚的实践方案。该方案为开发者提供了稳定可维护的算子库管理方法，平衡了性能优化与系统稳定性需

#深度学习

算子性能 Profiling：从理论到实测的完整流程

摘要：本文系统介绍了昇腾AI架构下算子性能Profiling的理论与方法。重点阐述了性能模型构建（计算时间、搬运时间、调度开销）、CANN Profiling工具链（Ascend Profiler、msprof等）的使用流程，以及关键指标（计算利用率、内存带宽利用率等）的解读方法。通过矩阵乘法算子的案例分析，展示了如何通过数据驱动的方式识别计算瓶颈或访存瓶颈，并给出针对性的优化建议。文章为开发者提

#人工智能 #大数据 #数据库

AI Core 算子优化：ops-nn 的指令级调优技巧

本文探讨了在昇腾AI架构中优化AICore算子的指令级调优技巧。通过分析AICore流水线架构及其阻塞类型，提出了向量化指令优先、无分支计算、指令融合和循环展开等核心优化方法，可显著提升算子性能。同时介绍了流水线调度中的双缓冲设计，实现计算与数据搬运的并行。最后强调需结合性能剖析工具定位瓶颈，针对性优化。这些技巧能有效释放AICore算力，提升神经网络算子的执行效率。

#人工智能

异构算子调度：CPU 与 NPU 的协同计算

异构算子调度是释放混合硬件算力的关键。通过智能的图切分、高效的内存管理以及异步执行机制，可以显著提升深度学习模型的推理效率。在 CANN 等 AI 框架中，这一机制通常由图优化器（Graph Optimizer）和运行时调度器（Runtime Scheduler）共同完成，对开发者透明，极大降低了应用开发的复杂度。相关资源：CANN 组织链接仓库链接。

#深度学习 #python

异构算子调度：CPU 与 NPU 的协同计算

#深度学习 #python

算子性能 Profiling：从理论到实测的完整流程

#人工智能 #大数据 #数据库

算子性能 Profiling：从理论到实测的完整流程

#人工智能 #大数据 #数据库

算子性能 Profiling：从理论到实测的完整流程

#人工智能 #大数据 #数据库

AI Core 算子优化：ops-nn 的指令级调优技巧

#人工智能

AI Core 算子优化：ops-nn 的指令级调优技巧

#人工智能

共 11 条

请选择