weixin_45255454 个人主页

@weixin_45255454

weixin_45255454

2025-12-02 19:22:38 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾NPU内存优化 - Triton算子中的片上内存约束与突破

本文深入剖析了在昇腾NPU上使用Triton开发高性能算子时面临的核心挑战——片上内存约束问题。作者基于多年实战经验，系统性地提出了突破UB缓存限制的优化方法论，包括智能分块、核内再分块、数据复用等关键技术。通过完整的LayerNorm算子优化示例和性能数据分析，展示了如何将理论优化策略转化为实际性能提升（3.3倍加速）。文章还分享了推荐系统和科学计算领域的真实优化案例，并提供了故障排查指南和未来

#昇腾 #CANN

Ascend C Tiling维度切分策略全解 - Block、Core与硬件单元的映射艺术

摘要：昇腾NPU算子开发中，Tiling设计是资源分配的"政治经济学"，需要在并行度、计算密度和资源开销三者间找到平衡。本文通过真实案例，从Block切分、AICore映射到硬件单元调度三个层面，剖析如何设计自适应Tiling策略。特别针对非对称卷积，展示了从±50%性能波动优化到±5%以内的实战经验，包括动态Tile决策器设计、条件核函数实现和尾块优化技巧。文章还总结了Cac

#人工智能 #昇腾 #CANN

昇腾AI全栈技术深度解析：从异构计算到应用开发实战

本文深度解析华为昇腾AI全栈技术体系，聚焦CANN异构计算架构，涵盖达芬奇芯片微架构、AscendC编程模型、算子优化等核心技术。通过三维计算单元设计、软硬协同优化，将昇腾910B的理论算力转化为实际业务价值，实现80%硬件利用率。文章包含ResNet-50优化实例、MoE模型部署实战等企业级案例，提供从单卡开发到集群部署的完整技术路径。核心创新包括三级流水线、动态Shape支持等关键技术，显著提

#人工智能 #昇腾 #CANN

性能优化关键策略：Ascend C Tiling（分块）机制原理解析

本文系统探讨了AscendC Tiling技术的核心原理与优化策略。Tiling通过数据分块、多核并行和内存层次优化三大机制，有效解决AI处理器内存容量与大规模张量计算的矛盾。文章从硬件架构出发，详细解析了Tiling的数学模型、算法实现和性能特性，并通过动态Shape算子案例展示了从40%到85%的算力提升方法。重点介绍了多粒度优化框架和自适应分块策略，为高性能算子开发提供完整解决方案。文章还涵

#性能优化 #昇腾 #CANN

MlaProlog算子全景透视-结构流程与依赖关系深度分析

本文系统介绍了昇腾AI处理器上MlaProlog算子的技术架构与开发实践。从硬件特性分析入手，详细阐述了基于达芬奇架构的融合算子设计原理，通过计算图优化实现3-5倍性能提升。重点讲解了从Python DSL到AscendC代码的自动编译路径，结合TVM/MLIR技术栈和多面体模型优化方法。文章还分享了企业级应用案例、性能调优技巧和故障排查指南，并展望了AI编译技术向智能生成和异构统一的发展趋势。为

#网络 #人工智能 #CANN +1

Ascend C开源Cube算子深度拆解与高效开发指南

本文系统解析基于AscendC的开源Cube算子开发全流程，聚焦CANN异构计算架构下的三大核心技术：达芬奇3DCube单元、AscendC向量化编程与多级流水线调度。通过源码逆向工程可缩短70%学习周期，模块化拆解能深入理解复杂算子逻辑，性能热点分析可定位90%优化瓶颈。关键技术包括三级代码阅读法、CPU/NPU孪生调试和模板化开发（降低60%工作量）。提供MatMul算子拆解实例、自定义开发指

#开源 #昇腾 #CANN

利用Double Buffer技术优化Ascend C算子内存带宽

本文深入解析AscendC中DoubleBuffer技术的原理与实践，探讨如何通过双缓冲优化解决AI计算中的内存墙问题。文章系统介绍了昇腾AI处理器的多级存储架构和流水线并行机制，详细阐述了DoubleBuffer的实现方法及其40%-60%的性能提升效果。通过Element-Wise加法算子的完整案例，展示了从开发环境配置到性能分析工具链的全流程实践，并提供了企业级应用的优化策略和故障排查指南。

#昇腾 #CANN

AsNumpy 与 CANN 的协同 - Ascend C 运行时引擎原理解析

本文深入解析AsNumpy与CANN运行时的协同优化机制，通过四层运行时架构实现Python到NPU的高效映射。关键技术包括：计算图优化（算子融合、内存复用）、统一内存管理（零拷贝、内存池）和异步执行引擎（多流并发、DAG调度）。性能测试显示，优化版本相比NumPy实现111.5倍加速。最佳实践建议采用统一内存、异步执行和批量操作。该技术代表了声明式编程在异构计算中的优势，使开发者能专注算法而由运

#开发语言 #昇腾 #CANN

Ascend C调试与调优指南 - MoeGatingTopK开发中的常见问题

本文深度解析MoeGatingTopK在Ascend C开发中的常见问题与调优策略。针对内存对齐、数据竞争、性能瓶颈等关键技术难题，提供完整的诊断方法和解决方案。文章涵盖从代码级调试到系统级调优的全链路技术，包含5大典型场景、12个实战案例，以及可复现的性能优化方案。基于ops-transformer仓的实际开发经验，展示如何在企业级项目中实现3-8倍性能提升和99.9%+的正确性保障。本文系统性

#开发语言 #昇腾 #CANN

Ascend C 与 TensorFlow 集成指南 - 从自定义算子开发到高性能推理优化

本文系统介绍了在TensorFlow中集成AscendC自定义算子的技术方案，实现端到端性能提升。主要内容包括：1）架构设计与内存管理策略，通过统一内存分配降低15-20%访问延迟；2）核心集成技术，涵盖算子注册、梯度计算等关键环节，使训练速度提升25-40%；3）矩阵乘法优化案例，通过分块计算、双缓冲等技术实现3-5倍加速；4）企业级实践，包括大模型训练优化、动态形状支持和混合精度集成；5）性能

#CANN #昇腾 #开发语言

共 71 条

请选择