logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

实战:使用Ascend C构建MoeGatingTopK算子 - 数据排序与结果写出

摘要:本文系统介绍了基于AscendC构建MoeGatingTopK算子在数据排序与结果写出阶段的优化技术。通过向量化Top-K算法、多核协同排序、分布式归并和高效结果写出等关键技术,在昇腾AI处理器上实现了5-8倍的性能提升。文章详细阐述了从算法设计到工程实现的完整技术栈,包括向量化加载合并、蝶形归并网络、异步流水线写出等创新优化方法。实测数据显示,优化后算法在1024专家规模下排序时间从2.3

文章图片
#排序算法#昇腾#CANN
ops-nn算子库 神经网络高阶算子的设计与实现架构

本文深入解析了昇腾CANN软件栈中神经网络计算引擎ops-nn的设计哲学与实现技术。通过分层架构设计(高层API、专家接口、硬件内核)平衡易用性与性能,重点剖析了matmul和activation两类算子的优化策略:利用FRACTAL_NZ数据排布驯服Cube计算单元,采用融合与潜伏技术应对内存带宽瓶颈。文章详细演示了从零构建量化感知卷积算子的全流程,包括接口设计、核函数实现和七级性能优化方法。最

文章图片
#神经网络#架构#人工智能 +2
昇腾Ascend C高效编程最佳实践:从架构理解到性能极致

摘要 本文系统阐述了昇腾AscendC高效编程的核心方法论,涵盖达芬奇架构解析、内存优化策略和计算资源利用三大维度。基于CANN7.0+实践,提供从基础算子到复杂计算图的完整优化路径,关键技术包括: 架构特性:达芬奇架构的存储层次模型与SPMD编程范式 优化技术:UnifiedBuffer智能管理、DMA双缓冲流水线、向量化计算 性能验证:实测优化后算子性能提升2-3倍,硬件利用率从40%提升至8

文章图片
#昇腾#CANN#架构
精度生命线:Ascend算子测试框架gen_data与verify_result深度解析

本文深入解析华为昇腾CANN算子测试框架中的gen_data.py与verify_result.py设计与实现。测试数据生成采用科学方法论,覆盖边界条件、特殊值等四类用例;精度验证构建多维度体系,包含绝对误差、相对误差、信噪比等指标。文章通过实战案例展示从数据生成到自动化回归测试的全流程,提供5个Mermaid流程图、真实误差分析数据及13年经验总结的调试方法。重点阐述了企业级测试流水线设计、容差

文章图片
#昇腾#CANN#架构
Kernel侧的指挥棒:在AI Core上高效运用Tiling信息

本文系统阐述了AscendC算子开发中Kernel侧Tiling信息的高效运用机制,涵盖从数据解析、多核调度到优化策略的完整技术体系。重点剖析了TilingData在AICore中的解析方法、多级流水线并行优化和动态Shape自适应计算等关键技术,通过Add/MatMul等实战案例展示了如何通过精细的Tiling调度实现85%以上的硬件理论性能。文章还详细介绍了双缓冲优化技巧和企业级调试框架,为工

文章图片
#人工智能#昇腾#CANN
Triton - Ascend算子性能优化策略:从基础调优到企业级实战

本文系统介绍了Triton在昇腾AI处理器上的性能优化全流程,涵盖内存访问、计算强度和并行度三大核心优化策略。通过详细解析性能分析工具、优化方法论及实战案例(如矩阵转置、Embedding层和Attention层优化),展示了如何结合DLCompiler与AscendNPUIR特性实现接近硬件峰值的算子性能。文章提出"可量化、可复现、可持续"的优化原则,并给出性能优化检查清单和

文章图片
#昇腾#CANN#性能优化 +1
超越 NumPy:AsNumpy 的 NPU 扩展功能与自定义算子开发入门

本文系统介绍AsNumpy在昇腾NPU环境中的扩展应用,重点分析其超越NumPy的三大核心优势:NPU原生算子加速(8-32倍)、自定义AscendC算子开发框架和混合精度计算优化。通过推荐系统优化、图像处理等实战案例,展示如何实现10-50倍性能提升。文章提供从架构设计、算子开发到性能调优的全流程指南,包含内存访问优化、计算图策略等高级技巧,并附有故障排查清单。最后展望AsNumpy在自动化优化

文章图片
#numpy#昇腾#CANN
Ascend C算子调试与精度调优实战技巧

本文系统介绍了AscendC算子调试与精度调优的全套技术方案。主要内容包括:1)构建昇腾全栈调试生态系统,涵盖调试工具链使用、精度定位方法论和性能分析技巧;2)通过Pow算子案例详细展示精度调优全流程,包括问题定位、根因分析和解决方案;3)提供精度比对工具、性能分析工具等实战指南;4)总结企业级调试Checklist和最佳实践。调试结果显示,优化后Pow算子的精度提升达5700倍,模型准确率提升1

文章图片
#昇腾#CANN
内存金字塔:Ascend C中的多级存储体系与高效访存设计

本文系统探讨了昇腾NPU达芬奇架构中的内存优化策略。基于实测数据,揭示了GlobalMemory、UnifiedBuffer、L1Cache三级存储体系200倍的访存延迟差异,并提出了完整的优化方法论。文章首先剖析了内存层次设计原理,包括Bank访问模式、访存延迟模型等关键技术;随后展示了从基础数据搬运到矩阵乘Tiling的实战优化,通过异步DMA、双缓冲等技术可实现2.5倍性能提升;最后聚焦LL

文章图片
#c语言#开发语言#昇腾 +1
面向多模态大模型:InternVL在昇腾平台上的训练优化与挑战应对

《千亿参数多模态大模型InternVL在昇腾平台的训练优化实践》 摘要:本文详细介绍了1100亿参数的多模态大模型InternVL在昇腾平台上的完整训练优化方案。针对内存墙、通信瓶颈和计算效率三大核心挑战,提出了系统性的解决方案:1)采用分层张量并行和ZeRO-3优化技术,将模型内存需求从理论1.1TB降低到单卡28GB;2)通过分层AllReduce算法和通信计算重叠技术,将通信开销降低62.5

文章图片
#昇腾#CANN
    共 70 条
  • 1
  • 2
  • 3
  • 7
  • 请选择