logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN Runtime零拷贝传输技术源码实战 彻底打通Host与Device的数据传输壁垒

本文深入探讨了AI计算中常被忽视的数据传输瓶颈问题,重点分析了华为CANN框架中零拷贝技术的实现原理。通过共享内存和内存映射技术,零拷贝消除了CPU与NPU之间不必要的数据拷贝,使两者能直接访问同一块物理内存区域。文章详细解读了零拷贝的架构设计、核心API和性能优势,并提供了完整的代码示例演示如何在模型推理中应用该技术。实验数据显示,相比传统DMA传输方式,零拷贝能显著降低延迟、提高带宽利用率并减

文章图片
#数据库#服务器#运维 +1
CANN Runtime零拷贝传输技术源码实战 彻底打通Host与Device的数据传输壁垒

本文深入探讨了AI计算中常被忽视的数据传输瓶颈问题,重点分析了华为CANN框架中零拷贝技术的实现原理。通过共享内存和内存映射技术,零拷贝消除了CPU与NPU之间不必要的数据拷贝,使两者能直接访问同一块物理内存区域。文章详细解读了零拷贝的架构设计、核心API和性能优势,并提供了完整的代码示例演示如何在模型推理中应用该技术。实验数据显示,相比传统DMA传输方式,零拷贝能显著降低延迟、提高带宽利用率并减

文章图片
#数据库#服务器#运维 +1
MoE通信优化 稀疏通信模式专家级实现解析

本文深入解析CANN项目中expert_alltoall.cpp的实现,揭示其如何优化MoE模型的专家路由通信。传统AlltoAll通信采用"群发"模式,而该方案通过预处理生成专家索引,仅发送必要数据,将通信量从O(N²)降至O(激活专家数*数据量)。文章详细剖析了路由准备的核心算法,包括专家计数统计、偏移量计算和数据重排等关键步骤,并展示实测数据证明其在大规模集群上的显著性能

文章图片
#网络#CANN
Rust 异步运行时原理:从 Future 到 Waker 再到 Executor

回调 (Callbacks):(Node.js 早期) 逻辑分散,难以跟踪,导致“回调地狱”。协程 (Goroutines):(Go 语言) M:N 调度,有栈协程,易于使用但内存开销大(~2KB 起步),且依赖运行时。:(JavaScript) 链式调用,解决了回调地狱,但前仍显繁琐。:无栈协程,Future只是一个状态机,内存开销极小小(几十字节),不依赖特定运行时。Taskasyncait:

文章图片
#vim#编辑器#开发语言 +2
昇腾CANN性能剖析实战 - 从工具使用到深度优化

本文系统阐述了昇腾CANN性能剖析工具链的核心技术与实践方法。通过分层数据采集架构实现低开销高精度性能监测,重点分析了计算/内存瓶颈识别、流水线效率优化等关键技术。实战案例显示,采用系统化性能剖析可使算子优化效率提升300%,硬件利用率从45%提升至85%以上。文章详细介绍了从环境配置、数据采集到深度分析的完整流程,并提供了内存分块优化、双缓冲技术等具体优化策略。最后提出建立自动化性能测试框架和持

文章图片
#人工智能#昇腾#CANN
初识 Aclnn - 新一代 Ascend C 算子接口的设计哲学与核心概念

摘要:Aclnn是昇腾CANN软件栈推出的新一代算子接口范式,采用张量优先设计理念,提供类似PyTorch的编程体验。相比传统接口,Aclnn通过统一抽象、显式流管理和类型安全参数传递,显著提升开发效率和性能。实测显示,Aclnn可减少40%样板代码,并获得26%性能提升。其核心优势包括:1)自然的张量操作接口;2)自动内存管理;3)与PyTorch生态对齐;4)智能内核调度机制。Aclnn特别适

文章图片
#开发语言#昇腾#CANN
Triton-Ascend性能测试工具解析:从Profiler到Benchmark的完整指南

本文深入探讨了昇腾NPU生态下的性能优化方法论,重点介绍了torch_npu.profiler工具和科学Benchmark设计两大核心技术。通过真实案例剖析,揭示了性能测试中常见的"自嗨"陷阱,并提供了从微观算子优化到宏观系统调优的全套解决方案。文章详细讲解了如何利用三层数据关联的Profiler精准定位瓶颈,以及设计工业级Benchmark的黄金法则,包括预热策略、多形状覆盖

文章图片
#昇腾#CANN
昇腾Ascend C实战:手撕MoeGatingTopK融合算子与MoE架构性能狂飙

摘要: 本文系统剖析了MoeGatingTopK融合算子在混合专家模型(MoE)中的核心作用,涵盖数学原理、AscendC实现及企业级部署全流程。作为CANN生态关键组件,该算子通过硬件协同优化(如DoubleBuffer、分块并行)实现专家路由的高效计算,支持万亿参数模型的低延迟推理。重点解析了TopK算法优化(O(n+klogk)复杂度)、负载均衡策略及分布式容错机制,并结合实战案例展示204

文章图片
#开发语言#昇腾#架构 +1
昇腾CANN与AsNumpy 数据科学计算范式的百倍重构之路

摘要:本文深入解析基于华为昇腾CANN架构的高性能科学计算库AsNumpy,揭示其从传统CPU到NPU的计算范式变革。通过AscendC编程模型,AsNumpy在张量运算规模突破临界点时实现百倍加速,核心在于智能内存管理、高效算子调度及硬件级优化。文章详细拆解其架构设计,包括NPUArray双缓冲机制、AscendC内核实现原理,并通过图像卷积实例展示实际应用。同时探讨企业级优化策略,展望AI原生

文章图片
#python#开发语言#昇腾 +1
昇腾NPU架构设计 从抽象硬件模型到物理实现

昇腾NPU(Neural Processing Unit)作为华为自研的AI加速器,其架构设计体现了"软件定义硬件"与"硬件加速软件"的双向协同哲学。本文基于我十三年的芯片设计经验,深度解构昇腾达芬奇架构从抽象硬件模型到物理实现的完整技术栈。我们将揭示AI Core内部的Cube计算单元如何通过脉动阵列实现矩阵计算的硬件化,多级存储体系如何打破冯·诺依曼瓶颈,以及指令调度系统如何实现计算与搬运的完

文章图片
#人工智能#CANN#昇腾
    共 46 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择