logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NPU性能调优完全攻略——从Profiler到算子调优的实战方法论

摘要: 本文详细介绍了如何利用CANN Profiler工具链优化NPU模型性能。通过msprof采集算子耗时、内存访问、通信开销等数据,结合msprof_analysis进行数据分析,定位瓶颈(如内存带宽或通信延迟)。使用Chrome Trace可视化时间线,发现并发不足或依赖问题。实战案例中,LLaMa-2 7B推理的AI Core利用率从38%提升至72%,吞吐量从19.2 tokens/s

文章图片
#分布式#人工智能#经验分享 +1
ATC模型转换完全指南——从ONNX到NPU可执行文件的转化全流程

摘要:本文介绍了如何使用ATC工具将ONNX模型转换为NPU可执行的OM文件。ATC不仅进行格式转换,还涉及算子验证、图优化和量化处理。文章详细讲解了ATC命令行使用方法,包括静态/动态shape转换、精度模式选择(fp16/fp32)、算子融合优化以及AIPP预处理模块配置。通过实际案例说明常见问题(如动态shape报错)和性能优化技巧,帮助开发者高效部署模型到NPU硬件。

文章图片
#paddlepaddle#性能优化#人工智能 +2
ACL运行时API深度解析——CANN最底层的算子调用接

本文介绍了如何直接使用CANN的ACL运行时API在NPU上调用算子,绕过深度学习框架构建轻量级推理引擎。ACL提供设备管理、内存分配、算子调用等核心功能,适用于嵌入式设备等低开销场景。文章详细讲解了ACL编程模型,包括矩阵相加示例、内存管理策略(普通分配与大页内存)、Host与NPU数据传输方法,以及多流并发和事件同步机制。通过显式控制内存生命周期和流管理,开发者可以构建高效的自研推理引擎,特别

文章图片
#numpy#pytorch#人工智能 +2
GE图引擎深度解析——CANN的计算图优化与执行引擎

本文深入解析了CANN的图引擎(GE)如何将Python计算图编译为NPU可执行指令的全流程。GE作为连接深度学习框架与NPU硬件的核心引擎,主要完成四大关键任务:图构建、图优化、图切分和任务下发。其中重点介绍了GE的三大核心技术:算子融合(如将Conv2D+BatchNorm融合可减少50%延迟)、内存优化(通过生命周期分析和内存复用降低峰值内存)以及分布式场景下的图切分逻辑(自动插入通信算子)

文章图片
#numpy#pytorch#人工智能 +2
Da Vinci NPU 架构深度解析——华为昇腾AI处理器背后的硬件秘密

华为昇腾NPU采用自研Da Vinci架构,通过专用计算单元(矩阵/向量/标量分离)、大容量片上内存和稀疏计算优化,显著提升AI推理性能。其AI Core包含Cube Unit(256TFLOPS fp16)、Vector Unit和Scalar Unit,配合HBM高带宽内存,相比GPU更适合AI工作负载。实测LLaMA-2 7B推理中,昇腾910延迟28ms,接近A100的22ms。关键优势在

文章图片
#架构#华为#人工智能
Da Vinci NPU 架构深度解析——华为昇腾AI处理器背后的硬件秘密

华为昇腾NPU采用自研Da Vinci架构,通过专用计算单元(矩阵/向量/标量分离)、大容量片上内存和稀疏计算优化,显著提升AI推理性能。其AI Core包含Cube Unit(256TFLOPS fp16)、Vector Unit和Scalar Unit,配合HBM高带宽内存,相比GPU更适合AI工作负载。实测LLaMA-2 7B推理中,昇腾910延迟28ms,接近A100的22ms。关键优势在

文章图片
#架构#华为#人工智能
Da Vinci NPU 架构深度解析——华为昇腾AI处理器背后的硬件秘密

华为昇腾NPU采用自研Da Vinci架构,通过专用计算单元(矩阵/向量/标量分离)、大容量片上内存和稀疏计算优化,显著提升AI推理性能。其AI Core包含Cube Unit(256TFLOPS fp16)、Vector Unit和Scalar Unit,配合HBM高带宽内存,相比GPU更适合AI工作负载。实测LLaMA-2 7B推理中,昇腾910延迟28ms,接近A100的22ms。关键优势在

文章图片
#架构#华为#人工智能
PyTorch 适配 NPU:从 torch_npu 到 CANN 算子的全链路技术解析

本文介绍了华为 torch_npu 扩展包如何实现 PyTorch 在 NPU 上的运行支持。主要内容包括:1)torch_npu 通过注册 NPU 后端、算子映射和内存管理三大功能,将 PyTorch 算子转发到 CANN 执行;2)详细解析了算子调度机制、内存管理实现及分布式训练的 HCCL 后端配置;3)提供了 LLaMA-2 7B 模型在 NPU 上的微调实战案例。文章指出,虽然理论上只需

文章图片
#pytorch#人工智能#python
ATB:让 Transformer 推理快得像开了挂——昇腾算子加速库技术解析

ATB:Transformer模型推理加速利器 摘要:ATB(ascend-transformer-boost)是针对Transformer类模型的NPU推理加速库,通过三大核心技术显著提升性能:1)算子融合将多个小算子合并为单一算子,减少内存读写次数,使LLaMA-2 70B模型单token处理时间从80ms降至32ms;2)智能KV Cache管理实现分页存储、共享机制和增量更新,支持batc

文章图片
#transformer#深度学习#人工智能 +1
    共 109 条
  • 1
  • 2
  • 3
  • 11
  • 请选择