logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AsNumpy 内存管理艺术:高效利用 NPU 内存池提升数据吞吐

本文深入探讨AsNumpy在昇腾NPU环境中的内存管理优化技术,重点解析统一内存池、双缓冲和异步传输三大核心机制。通过实测数据验证,优化后数据吞吐提升3-5倍,并针对图像处理和科学计算场景给出企业级解决方案。文章系统性地阐述了NPU内存管理的独特挑战、架构设计原理及优化实践,包括内存预分配、访问模式优化等关键技术,同时提供性能检查清单和常见问题解决方案。最后展望了智能内存预测等未来发展方向,为开发

文章图片
#python#昇腾#CANN
内存管理器深度解析 CANN Runtime的智能内存分配策略

CANN Runtime的内存管理器通过精细的分层设计和智能算法,在AI计算的高并发场景下实现了卓越的性能表现。其核心价值在于平衡了分配速度、内存利用率和碎片控制这三个关键指标。实践经验总结尺寸分类是内存优化的基础,不同大小的对象需要不同的策略线程本地缓存是解决锁竞争的关键技术定期碎片整理比实时整理更实用,需要在时机选择上做好平衡未来发展方向AI驱动的内存预测:基于机器学习预测内存分配模式异构内存

文章图片
#微服务#架构#云原生 +1
CANN TIK数据搬运GM到UB高性能优化实战

本文深入解析华为CANN架构下的TIK数据搬运与UB计算技术,揭示达芬奇核心的优化本质。通过双缓冲流水线设计将数据搬运延迟隐藏90%,利用MTE并行调度实现89%硬件利用率,并展示从基础搬运到企业级优化的完整技术方案。文章包含VectorAdd算子实例、六大性能优化技巧及故障排查指南,为开发者提供异构计算性能调优的实战图谱。基于13年异构研发经验,作者指出数据搬运优化而非计算本身是AI基础设施的未

文章图片
#华为#昇腾#CANN
Ascend C算子开发实战-从工程落地到多框架适配

本文系统介绍了AscendC算子开发的完整技术路径,涵盖从基础原理到企业级实践的全过程。重点解析了达芬奇架构设计理念、工程化矢量加法实现等核心技术,通过实测数据展示了3-5倍的性能优化效果。文章提供完整代码示例和分步骤实现指南,详细讲解了环境配置、核函数开发等关键环节,并给出内存访问异常等常见问题的解决方案。在高级应用部分,通过推荐系统和大语言模型两个案例,展示了工程化优化的实际效果。最后总结了工

文章图片
#开发语言#昇腾#CANN +1
算子工程交响乐:深度解构 Ascend C 算子分析、创建与实现的协同艺术

本文系统化剖析了AscendC算子从需求分析到实现验证的完整工程化路径。通过多维需求建模、标准化工程模板和自动化工具链,构建了包括分析(需求规格、架构决策)、创建(模板系统、自动化工具)、实现(分层架构、协同模式)和验证(测试框架、CI流水线)的算子开发体系。强调工程治理需结合质量门禁和知识管理,提出标准化、自动化、协同化、质量化的核心原则,实现开发效率提升300%等关键指标。文章为高性能AI算子

文章图片
#昇腾#CANN
跨越语言藩篱:Pybind11桥接Python与Ascend C算子的工程实践

本文深入探讨了使用Pybind11实现Python调用AscendC算子的技术方案。文章从工程实践角度出发,分析了简单封装带来的性能损失、内存泄漏等问题,提出Pybind11与CANN深度集成的解决方案。通过矢量加法算子的完整案例,展示了从AscendC核函数实现、Pybind11封装到CMake构建的全流程,重点解析了零拷贝数据传输、设备内存管理、流同步等关键技术。文章还分享了企业级算子服务框架

文章图片
#算法#昇腾#CANN
实战:使用Ascend C构建MoeGatingTopK算子 - 数据加载与计算

🚀摘要:本文深度剖析了基于AscendC构建MoeGatingTopK算子的核心技术,聚焦昇腾平台的数据加载与计算优化。通过内存层次优化、双缓冲流水线、向量化计算等关键技术,实现5-8倍性能提升。文章从算子架构设计、数据分片策略到计算内核优化,完整呈现企业级实现方案,包含: 1️⃣ 智能内存分配与双缓冲技术(实测延迟降低35%) 2️⃣ 向量化门控计算(利用率达85%+) 3️⃣ 数值稳定的So

文章图片
#昇腾#CANN
硬核实战:解密Ascend C单算子API的纯C++调用、内存管理与精度验证体系

您的PPT图片开宗明义,将“单算子API调用”与“Aclnn接口调用”并列,这正指出了昇腾算子开发的两种核心范式。如果说Aclnn是便捷高效的“自动驾驶模式”,那么直接调用单算子API就是赋予开发者完全控制权的“手动挡模式”。这种模式要求开发者手动管理设备内存、显式控制执行流、亲自处理主机与设备间的数据搬运。虽然复杂,但它带来了极致的性能可控性和灵活性,是构建高性能推理引擎、进行算子深度优化和在某

文章图片
#昇腾#鸿蒙
从CUDA到Ascend C开发实战

本文深入解析昇腾Ascend C与NVIDIA CUDA的编程范式差异,从架构设计、编程模型到底层实现进行全方位对比。核心内容包括:达芬奇架构与CUDA核心的硬件差异分析,SPMD与SIMT并行模型的本质区别,内存层次结构的访问优化策略,以及通过实际代码示例展示性能特性。关键揭示Ascend C通过显式流水线和结构化接口降低开发门槛,而CUDA依赖线程束调度实现灵活性。文章包含完整算子开发实战、性

文章图片
#开发语言#昇腾#CANN +1
Ascend C自定义算子开发实战 CANN 7.0高效开发指南

本文系统介绍了CANN7.0框架下使用AscendC开发AI算子的完整流程和关键技术。主要内容包括:1)AscendC编程模型与达芬奇架构的深度解析;2)从环境配置到编译部署的端到端开发流程;3)性能优化策略如Tiling优化、双缓冲技术等;4)企业级实战案例。通过模板化开发可降低60%工作量,合理Tiling策略实现3-5倍性能提升,动态Shape增强算子泛化能力。文章提供了完整的AddCust

文章图片
#人工智能#开发语言#CANN +1
    共 50 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择