logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

模型训练中的精度保障:Ascend C算子数值稳定性分析

本文深入探讨了AI芯片算子在模型训练中的数值精度保障机制。通过分析浮点数误差传播、混合精度稳定性和关键算子实现,提出了完整的数值优化方案。重点解析了Softmax稳定算法、LayerNorm优化和注意力机制精度控制,并结合InternVL3、YOLOv7等模型实测数据验证了数值误差对训练效果的影响。文章还介绍了数值异常检测系统、精度验证工具等企业级解决方案,为开发者提供了从理论分析到工程实践的全套

文章图片
#人工智能#机器学习#深度学习 +2
昇腾AI算子开发全景图与Ascend C生态定位

本文深入解析华为昇腾AI处理器算子开发技术,重点探讨AscendC在CANN软件生态中的核心定位与开发实践。文章从CANN三明治架构切入,详细阐述Aclnn接口的两段式设计哲学,并通过完整案例演示从算子开发到PyTorch集成的全流程。内容涵盖:1)AscendC的硬件友好特性与性能优势;2)Aclnn接口的资源计算分离设计;3)工业级开发流程与Pybind11封装技巧;4)性能优化策略与故障排查

文章图片
#人工智能#开发语言#昇腾 +1
基于MlaProlog核间同步原理的大规模分布式算子设计

本文深入解析了基于昇腾AI处理器的MlaProlog核间同步机制,提出分层同步架构、细粒度通信优化和分布式流水线编排三大核心技术。通过256核环境下的实测数据验证,该方案相比传统MPI屏障同步可降低68.4%的同步开销,提升129.6%的训练吞吐量,实现近线性加速比。文章详细阐述了分布式注意力机制的完整实现,包括Softmax同步优化等关键技术,并分享了企业级应用中的性能优化技巧和故障排查方法,为

文章图片
#分布式#人工智能#昇腾 +1
实现形状推导:Ascend C Host侧Shape推导函数开发指南

摘要: 本文系统阐述了Ascend C Host侧Shape推导函数的设计原理与工程实践,深入解析了InferShape机制在CANN架构中的核心作用。通过BroadcastAdd算子案例,展示了从算子原型定义到Shape推导的全链路开发流程,涵盖广播规则、动态变量传递、边界条件处理等关键技术。实测表明,合理的Shape推导设计可降低动态Shape算子60%以上的内存分配开销,同时保持99.9%的

文章图片
#人工智能#昇腾#CANN
性能画像师:使用torch_npu.profiler进行Ascend算子深度性能剖析

本文系统介绍torch_npu.profiler在昇腾AI生态中的性能分析方法论。通过Matmul算子案例,详细解析Timeline、OperatorSummary、KernelDetails三大报告,展示如何识别计算与访存瓶颈。文章包含5个架构图、完整代码示例及实测数据,构建从数据采集到优化决策的完整体系。核心内容包括:1)torch_npu.profiler三层采集架构与指标体系;2)性能瓶颈

文章图片
#昇腾#CANN
数据洪流的精妙疏导:Ascend C内存层级与数据搬运优化实战

内存优化不是一门技术,而是一门艺术。技术有标准答案,艺术则需要创造力和直觉。Ascend C通过其精细的内存层级设计和丰富的数据搬运原语,为我们提供了优质的"画布"和"颜料"。但最终能否创作出性能的"杰作",取决于开发者对硬件特性的深刻理解、对数据流动的敏锐直觉,以及不断试错的勇气。"不要满足于让代码跑起来,要追求让硬件'唱起歌来'"。当你的数据在DDR、L1、UB、Register之间如行云流水

文章图片
#昇腾#CANN
Triton - Ascend算子调试与性能优化全链路实战:从Kernel入门到系统级调优

本文深入探讨了在昇腾(Ascend)硬件平台上使用Triton框架进行高性能算子开发的全流程技术体系。从架构设计理念出发,解析了Triton kernel与Ascend NPU的协同工作原理,提出三维并行度优化模型和多层次内存访问优化策略。文章包含完整可运行代码示例、基于真实硬件性能数据的优化分析、企业级实践案例和系统化故障排查方法。特别针对矩阵乘法、GELU激活函数等核心算子,详细展示了从原型设

文章图片
#Triton#昇腾#CANN
昇腾CANN训练营全解析:为何说Ascend C是投资AI未来的关键?

本文深度解析华为昇腾AI处理器及AscendC编程语言的战略价值。文章从异构计算格局切入,剖析CANN软件栈的架构设计,重点阐述AscendC面向AI计算的专用性设计理念,包括核函数范式、多级内存管理等核心特性。通过Sigmoid算子开发实例,详细展示AscendC的高效编码风格和开发流程,并分享性能优化技巧和故障排查经验。文章指出,掌握AscendC不仅是一项技能,更是对AI未来算力的关键投资,

文章图片
#CANN#昇腾
深度解密:MoE模型中的门控路由机制与MoeGatingTopK算法实现

本文深入解析混合专家(MoE)模型中的门控路由机制,重点探讨MoeGatingTopK算子的数学原理与工程实现。从传统Dense模型到MoE模型的范式转变出发,详细阐述门控路由的数学基础、Top-K选择算法优化及负载均衡技术。通过对比不同路由策略,提供动态K值调整、可微分路由等实战技巧,并分析常见性能瓶颈及优化方法。文章还展望了自适应路由、跨层专家共享等未来发展方向,为开发者提供大规模MoE模型的

文章图片
#昇腾#CANN
昇腾Atlas加速卡与Ascend C:从硬件基石到编程哲学的深度解析与实战

本文深入解析华为昇腾Atlas加速卡的达芬奇架构及AscendC编程模型。通过对比CUDA,揭示AscendC"显式并行、软硬协同"的设计哲学,重点剖析Cube/Vector计算单元协同机制及多级存储体系。结合EmbeddingDenseGrad算子开发案例,详解原子操作解决数据竞争的关键技术,并分享InternVL大模型适配中的算子融合等优化经验。文章指出,尽管AscendC

文章图片
#昇腾
    共 82 条
  • 1
  • 2
  • 3
  • 9
  • 请选择