logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI Agent 推理:从单次对话到多轮工具调用

本文探讨了基于昇腾CANN和NPU的AI Agent推理优化技术。针对Agent特有的循环推理模式(模型输出动作序列并调用工具),提出了两项关键技术:1)KV Cache续接机制,通过增量Prefill避免重复计算,仅首次请求执行完整Prefill;2)多Agent并行调度策略,采用Continuous Batching合并不同阶段的推理请求。实验表明,这些优化显著提升了Agent场景下的推理效率

文章图片
#人工智能#microsoft
DeepSeek-R1 在 CANN 上的推理部署

本文探讨了基于昇腾CANN和NPU的MoE模型DeepSeek-R1推理优化技术。该模型总参数量671B,每次推理激活37B参数,其MoE层通过路由选择和专家调度实现高效计算。关键技术包括:1)利用HCCL集合通信库实现专家并行中的All-to-All通信,优化token分发与结果收集;2)采用PD分离架构,Prefill阶段使用4卡处理计算密集型任务,Decode阶段16卡处理访存密集型任务;3

文章图片
#python#pytorch#深度学习
MindIE:大模型推理服务的调度、缓存和排队

MindIE是昇腾NPU上的大模型推理服务框架,通过Continuous Batching实现高效并发处理:动态重组Batch,让短Token请求无需等待长Token请求完成。采用Block级KV Cache管理避免内存碎片,将Cache切分为固定大小Block按需分配。针对长Prompt优化提出Prefill Chunking技术,分段处理避免阻塞其他请求。同时解决了KV Cache耗尽(通过S

文章图片
#python#开发语言
MindIE:大模型推理服务的调度、缓存和排队

MindIE是昇腾NPU上的大模型推理服务框架,通过Continuous Batching实现高效并发处理:动态重组Batch,让短Token请求无需等待长Token请求完成。采用Block级KV Cache管理避免内存碎片,将Cache切分为固定大小Block按需分配。针对长Prompt优化提出Prefill Chunking技术,分段处理避免阻塞其他请求。同时解决了KV Cache耗尽(通过S

文章图片
#python#开发语言
MindIE:大模型推理服务的调度、缓存和排队

MindIE是昇腾NPU上的大模型推理服务框架,通过Continuous Batching实现高效并发处理:动态重组Batch,让短Token请求无需等待长Token请求完成。采用Block级KV Cache管理避免内存碎片,将Cache切分为固定大小Block按需分配。针对长Prompt优化提出Prefill Chunking技术,分段处理避免阻塞其他请求。同时解决了KV Cache耗尽(通过S

文章图片
#python#开发语言
TorchAir:当 PyTorch 的动态图遇上昇腾NPU的静态编译

《昇腾NPU上的PyTorch编译优化:TorchAir技术解析》摘要: TorchAir是昇腾CANN推出的PyTorch动态图编译方案,相比传统ATC路径具有显著优势。该技术通过对接PyTorch 2.0的torch.compile接口,直接将动态图转换为CANN静态执行计划,省去了ONNX导出环节。其核心流程包括FX Graph标准化、设备映射和GE图优化三步,最终生成与ATC等效的OM文件

文章图片
#python#开发语言
TorchAir:当 PyTorch 的动态图遇上昇腾NPU的静态编译

《昇腾NPU上的PyTorch编译优化:TorchAir技术解析》摘要: TorchAir是昇腾CANN推出的PyTorch动态图编译方案,相比传统ATC路径具有显著优势。该技术通过对接PyTorch 2.0的torch.compile接口,直接将动态图转换为CANN静态执行计划,省去了ONNX导出环节。其核心流程包括FX Graph标准化、设备映射和GE图优化三步,最终生成与ATC等效的OM文件

文章图片
#python#开发语言
TorchAir:当 PyTorch 的动态图遇上昇腾NPU的静态编译

《昇腾NPU上的PyTorch编译优化:TorchAir技术解析》摘要: TorchAir是昇腾CANN推出的PyTorch动态图编译方案,相比传统ATC路径具有显著优势。该技术通过对接PyTorch 2.0的torch.compile接口,直接将动态图转换为CANN静态执行计划,省去了ONNX导出环节。其核心流程包括FX Graph标准化、设备映射和GE图优化三步,最终生成与ATC等效的OM文件

文章图片
#python#开发语言
OM Model:Runtime 加载的不是 ONNX,是Graph Compiler 编译好的执行计划

本文详细介绍了昇腾NPU的OM离线模型文件结构及其运行机制。OM文件包含完整的执行计划,由四部分组成:文件头、权重数据、执行图和Buffer分配方案。运行时加载过程分为头校验、权重搬运、Buffer池初始化和调度表注册四个步骤。与ONNX不同,OM是完整的执行方案而非模型描述,因此跨CANN版本不兼容。OM通过精确的Buffer生命周期管理和零拷贝衔接优化执行效率,运行时只需按编译期规划执行,无需

文章图片
#深度学习#人工智能
OM Model:Runtime 加载的不是 ONNX,是Graph Compiler 编译好的执行计划

本文详细介绍了昇腾NPU的OM离线模型文件结构及其运行机制。OM文件包含完整的执行计划,由四部分组成:文件头、权重数据、执行图和Buffer分配方案。运行时加载过程分为头校验、权重搬运、Buffer池初始化和调度表注册四个步骤。与ONNX不同,OM是完整的执行方案而非模型描述,因此跨CANN版本不兼容。OM通过精确的Buffer生命周期管理和零拷贝衔接优化执行效率,运行时只需按编译期规划执行,无需

文章图片
#深度学习#人工智能
    共 232 条
  • 1
  • 2
  • 3
  • 24
  • 请选择