logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

HCCL内存池通信缓冲区复用与碎片整理

摘要:HCCL内存池技术通过智能缓冲区复用机制和动态尺寸调整策略,有效解决了分布式训练中的显存碎片问题。核心设计采用预分配缓冲区和历史使用模式预测,将BERT、GPT等大模型的显存占用降低35-45%。实现方案包括智能缓冲区查找、动态分配策略和碎片整理机制,实测显示通信效率提升8-15%,OOM错误减少98%。该技术为大规模分布式训练提供了高效的显存管理方案,未来可结合AI预测和异构内存管理进一步

文章图片
#wpf#CANN
多线程安全设计 CANN Runtime关键数据结构的锁优化

在老炮儿我搞了多年高性能计算的经验里,多线程安全设计永远是性能优化的重头戏。今天咱们就深度扒一扒CANN Runtime中那些关键数据结构的锁优化技巧。从读写锁的精细控制到无锁队列的巧妙实现,从原子操作的底层优化到自旋锁的实战应用,我将结合ops-nn仓库的真实代码,带你领略多线程编程的艺术。文章将重点分析Runtime中任务调度队列、内存管理器和设备上下文这三个核心组件的并发控制方案,看看CAN

文章图片
#开发语言#CANN
CANN资源泄漏检测工具源码深度解读 实战设备内存泄漏排查

摘要:本文深入解析华为CANN框架中针对NPU计算任务的资源泄漏检测机制,重点解决设备内存泄漏问题。通过轻量级拦截内存分配函数(如aclrtMalloc)实现无侵入式跟踪,采用线程本地上下文和无锁设计保障高并发性能(128线程下损耗<6%)。核心算法使用哈希指纹记录调用栈,结合批量提交和内存池优化,将性能损耗控制在5%以内。文中提供可直接集成的检测工具代码,包含拦截器实现、泄漏报告和调优方案

文章图片
#数据库#算法#CANN
CANN资源泄漏检测工具源码深度解读 实战设备内存泄漏排查

摘要:本文深入解析华为CANN框架中针对NPU计算任务的资源泄漏检测机制,重点解决设备内存泄漏问题。通过轻量级拦截内存分配函数(如aclrtMalloc)实现无侵入式跟踪,采用线程本地上下文和无锁设计保障高并发性能(128线程下损耗<6%)。核心算法使用哈希指纹记录调用栈,结合批量提交和内存池优化,将性能损耗控制在5%以内。文中提供可直接集成的检测工具代码,包含拦截器实现、泄漏报告和调优方案

文章图片
#数据库#算法#CANN
Ascend C融合算子开发实战:从架构到性能的深度优化

本文基于AscendC开发经验,系统讲解自定义融合算子的实现全流程。以LayerNorm+GEMM为例,详细解析算子设计原理、AscendC内核实现、Tiling策略优化及PyTorch集成方法。通过实测数据展示融合算子3-5倍的性能提升,并分享企业级部署中的优化技巧与故障排查经验。文章包含完整的代码示例和架构图解,为开发者提供从理论到实践的AI芯片算力调优指南,助力突破大模型时代的内存墙瓶颈。

文章图片
#架构#开发语言#CANN +1
serde 深度解析:Rust 序列化与反序列化的艺术

serde(SERialization/DEserialization) 是 Rust 生态中最重要的库之一,它提供了一个与数据格式无关的框架来实现 Rust 数据结构的序列化与反序列化。本文将深入探讨serde的设计哲学,从宏的魔术讲起,深入其核心 Trait(Serializer和)的数据模型,并实战演示如何通过属性和自定义函数来处理复杂的数据结构。通过本文,读者将理解serde如何实现高性能

文章图片
#rust#开发语言#后端
超越Kernel拼接 CV融合算子性能跃迁之道

本文探讨了CV融合算子在昇腾AI处理器上的性能优化方法。通过对比传统分离算子模式的性能瓶颈,提出了基于数据局部性原理的融合算子设计思路,将多个计算阶段整合为连续执行单元,减少全局内存访问。文章重点介绍了Python DSL开发范式,结合TVM/MLIR编译技术实现从高层描述到高效AscendC代码的自动生成。通过"类MlaProlog"算子开发实例,展示了计算与调度分离的设计理

文章图片
#深度学习#神经网络#人工智能 +2
从蓝图到实作:解剖Ascend C单算子工程的标准目录结构

本文将深入解析华为昇腾Ascend C单算子工程的标准目录架构。不同于简单的文件列表,我们将探究每个目录背后的设计哲学与工程考量。文章将从msopgen工具生成的工程模板出发,详解op_kernel/op_proto/framework/test/等核心目录的职责与协作关系。通过完整的加法算子实例,展示从JSON描述到编译测试的端到端开发流程。文中包含5个Mermaid架构图、真实项目中的目录优化

文章图片
#服务器#运维#昇腾 +1
自定义算子的必要性:Ascend C开发场景深度分析与实战

摘要:随着AI模型复杂度指数级增长和硬件定制化趋势,自定义算子成为释放昇腾芯片算力的关键技术。本文通过矩阵乘法完整案例,系统阐述AscendC在模型迁移、性能优化和算法创新三大场景的应用价值,展示自定义算子相比标准实现3-8倍的性能提升。重点解析工程化开发范式、多核负载均衡等核心技术,并结合大模型场景的FlashAttention优化实践,提供从原理到实战的全链路指导。文章还包含故障排查技巧和性能

文章图片
#昇腾#CANN
AsNumpy的异构内存管理:Ascend C的Device-Heap机制与性能优化之道

本文深度解析华为昇腾AsNumpy库的Device-Heap异构内存管理技术,揭示了其在NPU计算中的关键突破。文章首先对比传统内存管理与Device-Heap的架构差异,详细剖析了内存池设计、VA指针映射和数据驻留策略三大核心技术。通过性能测试数据显示,该技术在中大规模数据场景下可带来60-70%的性能提升。实战部分提供了图像处理和金融风控两个典型案例,展示了批量传输、延迟同步等优化技巧。最后总

文章图片
#性能优化#开发语言#CANN +1
    共 61 条
  • 1
  • 2
  • 3
  • 7
  • 请选择