logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾NPU内存优化 - Triton算子中的片上内存约束与突破

本文深入剖析了在昇腾NPU上使用Triton开发高性能算子时面临的核心挑战——片上内存约束问题。作者基于多年实战经验,系统性地提出了突破UB缓存限制的优化方法论,包括智能分块、核内再分块、数据复用等关键技术。通过完整的LayerNorm算子优化示例和性能数据分析,展示了如何将理论优化策略转化为实际性能提升(3.3倍加速)。文章还分享了推荐系统和科学计算领域的真实优化案例,并提供了故障排查指南和未来

文章图片
#昇腾#CANN
深入剖析CANN图引擎动态Shape支持 实战SDXL分辨率动态切换性能调优

本文深入解析CANN图引擎的动态Shape支持机制,聚焦DynamicShapeExecutor的设计实现与性能特性。通过分析ShapeInfer模块核心算法,结合SDXL模型实测数据,揭示了动态分辨率切换带来的12%首次推理延迟开销,以及后续推理仅2-3%的性能损失。文章提供了完整的ACL动态推理代码示例,并给出企业级视频分析平台的应用案例,展示了动态Shape在简化运维、节约资源方面的优势。最

文章图片
#CANN
YOLOv3在Atlas 300I/V Pro上的训练优化:从原理到部署

本文基于笔者多年计算机视觉和异构计算实战经验,深度解析YOLOv3模型在昇腾Atlas 300I/V Pro加速卡上的完整优化实战。从Darknet-53骨干网络优化、多尺度检测头适配,到损失函数计算和NMS后处理的Ascend C极致优化,全面展示如何实现3倍以上的训练加速。通过详细的性能数据对比、完整的代码实现和真实的部署案例,为开发者提供从模型原理到生产部署的完整技术路径。

文章图片
#昇腾#CANN
Ascend C与PyTorch生态融合:自定义算子开发全链路实战

本文基于多年昇腾开发实战经验,深度解析CANN框架下Ascend C算子与PyTorch生态的融合机制。四层桥接架构设计动态Tiling自适应算法双缓冲流水线优化以及企业级CI/CD集成方案。通过实际案例验证,系统化融合方案可将算子开发周期从月级缩短至周级,模型训练吞吐量提升2-3倍,为大规模AI应用提供可靠的生态兼容保障。自动化程度提升:AI辅助的算子自动生成和优化抽象层次提高:更高级的编程接口

文章图片
#pytorch#CANN#昇腾 +1
数据洪流的精妙疏导:Ascend C内存层级与数据搬运优化实战

技巧1:数据局部性优化// 不好的做法:跳跃访问i < N;// 缓存不友好// 好的做法:连续访问i < N;++i) {// 缓存友好// 更好的做法:分块连续访问++i) {技巧2:指令级并行(ILP)优化// 依赖链过长,ILP受限i < N;++i) {// 每次迭代依赖前一次结果// 优化:减少依赖链i < N;i += 4) {技巧3:内存访问模式优化// 测试不同的访问模式性能//

文章图片
#昇腾#CANN
Ascend C调试与调优指南 - MoeGatingTopK开发中的常见问题

本文深度解析MoeGatingTopK在Ascend C开发中的常见问题与调优策略。针对内存对齐、数据竞争、性能瓶颈等关键技术难题,提供完整的诊断方法和解决方案。文章涵盖从代码级调试到系统级调优的全链路技术,包含5大典型场景、12个实战案例,以及可复现的性能优化方案。基于ops-transformer仓的实际开发经验,展示如何在企业级项目中实现3-8倍性能提升和99.9%+的正确性保障。本文系统性

文章图片
#开发语言#昇腾#CANN
Ascend C 与 TensorFlow 集成指南 - 从自定义算子开发到高性能推理优化

本文系统介绍了在TensorFlow中集成AscendC自定义算子的技术方案,实现端到端性能提升。主要内容包括:1)架构设计与内存管理策略,通过统一内存分配降低15-20%访问延迟;2)核心集成技术,涵盖算子注册、梯度计算等关键环节,使训练速度提升25-40%;3)矩阵乘法优化案例,通过分块计算、双缓冲等技术实现3-5倍加速;4)企业级实践,包括大模型训练优化、动态形状支持和混合精度集成;5)性能

文章图片
#CANN#昇腾#开发语言
性能优化关键策略:Ascend C Tiling(分块)机制原理解析

本文系统探讨了AscendC Tiling技术的核心原理与优化策略。Tiling通过数据分块、多核并行和内存层次优化三大机制,有效解决AI处理器内存容量与大规模张量计算的矛盾。文章从硬件架构出发,详细解析了Tiling的数学模型、算法实现和性能特性,并通过动态Shape算子案例展示了从40%到85%的算力提升方法。重点介绍了多粒度优化框架和自适应分块策略,为高性能算子开发提供完整解决方案。文章还涵

文章图片
#性能优化#昇腾#CANN
Ascend C算子开发中的日志掘金:如何从Plog与报错代码中快速定位问题?

本文系统介绍了在昇腾(Ascend)AI处理器上进行算子开发时的日志智能分析方法。基于250+真实案例和多年经验,文章深入解析了CANN架构下的日志系统设计,包括Plog日志格式和错误代码解码机制。通过实际案例展示了从日志采集、模式识别到根因定位的完整调试流程,重点解决了内存越界、计算错误等常见问题。文章还分享了企业级日志监控系统的构建方法,以及通过日志分析驱动的性能优化技巧,最终实现将调试时间从

文章图片
#昇腾#CANN
昇腾NPU内存优化 - Triton算子中的片上内存约束与突破

本文深入剖析了在昇腾NPU上使用Triton开发高性能算子时面临的核心挑战——片上内存约束问题。作者基于多年实战经验,系统性地提出了突破UB缓存限制的优化方法论,包括智能分块、核内再分块、数据复用等关键技术。通过完整的LayerNorm算子优化示例和性能数据分析,展示了如何将理论优化策略转化为实际性能提升(3.3倍加速)。文章还分享了推荐系统和科学计算领域的真实优化案例,并提供了故障排查指南和未来

文章图片
#昇腾#CANN
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择