logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

MindIE:大模型推理服务的调度、缓存和排队

MindIE是昇腾NPU上的大模型推理服务框架,通过Continuous Batching实现高效并发处理:动态重组Batch,让短Token请求无需等待长Token请求完成。采用Block级KV Cache管理避免内存碎片,将Cache切分为固定大小Block按需分配。针对长Prompt优化提出Prefill Chunking技术,分段处理避免阻塞其他请求。同时解决了KV Cache耗尽(通过S

文章图片
#python#开发语言
MindIE:大模型推理服务的调度、缓存和排队

MindIE是昇腾NPU上的大模型推理服务框架,通过Continuous Batching实现高效并发处理:动态重组Batch,让短Token请求无需等待长Token请求完成。采用Block级KV Cache管理避免内存碎片,将Cache切分为固定大小Block按需分配。针对长Prompt优化提出Prefill Chunking技术,分段处理避免阻塞其他请求。同时解决了KV Cache耗尽(通过S

文章图片
#python#开发语言
MindIE:大模型推理服务的调度、缓存和排队

MindIE是昇腾NPU上的大模型推理服务框架,通过Continuous Batching实现高效并发处理:动态重组Batch,让短Token请求无需等待长Token请求完成。采用Block级KV Cache管理避免内存碎片,将Cache切分为固定大小Block按需分配。针对长Prompt优化提出Prefill Chunking技术,分段处理避免阻塞其他请求。同时解决了KV Cache耗尽(通过S

文章图片
#python#开发语言
TorchAir:当 PyTorch 的动态图遇上昇腾NPU的静态编译

《昇腾NPU上的PyTorch编译优化:TorchAir技术解析》摘要: TorchAir是昇腾CANN推出的PyTorch动态图编译方案,相比传统ATC路径具有显著优势。该技术通过对接PyTorch 2.0的torch.compile接口,直接将动态图转换为CANN静态执行计划,省去了ONNX导出环节。其核心流程包括FX Graph标准化、设备映射和GE图优化三步,最终生成与ATC等效的OM文件

文章图片
#python#开发语言
TorchAir:当 PyTorch 的动态图遇上昇腾NPU的静态编译

《昇腾NPU上的PyTorch编译优化:TorchAir技术解析》摘要: TorchAir是昇腾CANN推出的PyTorch动态图编译方案,相比传统ATC路径具有显著优势。该技术通过对接PyTorch 2.0的torch.compile接口,直接将动态图转换为CANN静态执行计划,省去了ONNX导出环节。其核心流程包括FX Graph标准化、设备映射和GE图优化三步,最终生成与ATC等效的OM文件

文章图片
#python#开发语言
TorchAir:当 PyTorch 的动态图遇上昇腾NPU的静态编译

《昇腾NPU上的PyTorch编译优化:TorchAir技术解析》摘要: TorchAir是昇腾CANN推出的PyTorch动态图编译方案,相比传统ATC路径具有显著优势。该技术通过对接PyTorch 2.0的torch.compile接口,直接将动态图转换为CANN静态执行计划,省去了ONNX导出环节。其核心流程包括FX Graph标准化、设备映射和GE图优化三步,最终生成与ATC等效的OM文件

文章图片
#python#开发语言
OM Model:Runtime 加载的不是 ONNX,是Graph Compiler 编译好的执行计划

本文详细介绍了昇腾NPU的OM离线模型文件结构及其运行机制。OM文件包含完整的执行计划,由四部分组成:文件头、权重数据、执行图和Buffer分配方案。运行时加载过程分为头校验、权重搬运、Buffer池初始化和调度表注册四个步骤。与ONNX不同,OM是完整的执行方案而非模型描述,因此跨CANN版本不兼容。OM通过精确的Buffer生命周期管理和零拷贝衔接优化执行效率,运行时只需按编译期规划执行,无需

文章图片
#深度学习#人工智能
OM Model:Runtime 加载的不是 ONNX,是Graph Compiler 编译好的执行计划

本文详细介绍了昇腾NPU的OM离线模型文件结构及其运行机制。OM文件包含完整的执行计划,由四部分组成:文件头、权重数据、执行图和Buffer分配方案。运行时加载过程分为头校验、权重搬运、Buffer池初始化和调度表注册四个步骤。与ONNX不同,OM是完整的执行方案而非模型描述,因此跨CANN版本不兼容。OM通过精确的Buffer生命周期管理和零拷贝衔接优化执行效率,运行时只需按编译期规划执行,无需

文章图片
#深度学习#人工智能
OM Model:Runtime 加载的不是 ONNX,是Graph Compiler 编译好的执行计划

本文详细介绍了昇腾NPU的OM离线模型文件结构及其运行机制。OM文件包含完整的执行计划,由四部分组成:文件头、权重数据、执行图和Buffer分配方案。运行时加载过程分为头校验、权重搬运、Buffer池初始化和调度表注册四个步骤。与ONNX不同,OM是完整的执行方案而非模型描述,因此跨CANN版本不兼容。OM通过精确的Buffer生命周期管理和零拷贝衔接优化执行效率,运行时只需按编译期规划执行,无需

文章图片
#深度学习#人工智能
DeepEP:MoE 推理的 AllToAll 通信瓶颈怎么解

摘要:MoE模型分布式推理中,Token分发的AllToAll通信成为主要瓶颈,占推理时间的40-55%。DeepEP通过优化通信与计算的重叠,显著提升性能。在昇腾集群上,采用Token重排和通信-计算并行策略,使通信占比从45%降至18%,吞吐量提升至820 tok/s。相比传统AllReduce,AllToAll对硬件链路要求更高,全互联架构能充分发挥其性能优势。

文章图片
#CANN#算法
    共 232 条
  • 1
  • 2
  • 3
  • 24
  • 请选择