logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

动态批处理调度在NPU推理中的艺术与实战

本文深入探讨了大模型推理场景下动态批处理调度的核心技术,重点剖析了max_batch_size与max_tokens参数的优化策略。通过CANN项目中的实际代码实现,展示了如何构建高效的请求调度器,在保证内存安全的前提下最大化NPU利用率。文章包含性能测试数据、生产级代码示例及常见问题解决方案,为开发者提供了从理论到实践的完整指导。关键点包括:双重约束检查算法、吞吐量与延迟的平衡技巧,以及针对不同

文章图片
#CANN
动态批处理调度在NPU推理中的艺术与实战

本文深入探讨了大模型推理场景下动态批处理调度的核心技术,重点剖析了max_batch_size与max_tokens参数的优化策略。通过CANN项目中的实际代码实现,展示了如何构建高效的请求调度器,在保证内存安全的前提下最大化NPU利用率。文章包含性能测试数据、生产级代码示例及常见问题解决方案,为开发者提供了从理论到实践的完整指导。关键点包括:双重约束检查算法、吞吐量与延迟的平衡技巧,以及针对不同

文章图片
#CANN
KV Cache分页管理 PagedAttention在CANN中的实现与性能突破

本文深入解析CANN计算算子库中PagedAttention的实现,重点介绍其KVCache分页管理机制。通过block_table内存布局优化,LLaMA-70B模型推理显存占用降低41%,吞吐量提升3.2倍。文章从技术原理、实战实现到性能优化,系统阐述了分页式KVCache管理如何解决大模型推理中的显存碎片化问题。核心创新是将传统连续存储的键值缓存拆分为固定大小的内存块,实现类似操作系统的虚拟

文章图片
#人工智能#CANN
KV Cache分页管理 PagedAttention在CANN中的实现与性能突破

本文深入解析CANN计算算子库中PagedAttention的实现,重点介绍其KVCache分页管理机制。通过block_table内存布局优化,LLaMA-70B模型推理显存占用降低41%,吞吐量提升3.2倍。文章从技术原理、实战实现到性能优化,系统阐述了分页式KVCache管理如何解决大模型推理中的显存碎片化问题。核心创新是将传统连续存储的键值缓存拆分为固定大小的内存块,实现类似操作系统的虚拟

文章图片
#人工智能#CANN
CANN Runtime批处理调度源码解析 小批量推理请求合并的艺术

摘要:本文深入解析CANNRuntime的批处理调度技术,揭示其如何通过智能请求合并提升NPU计算效率。核心内容包括动态批大小调整算法、延迟与吞吐量权衡策略,以及基于源码(BatchScheduler类)的具体实现。文章通过实测数据展示批处理带来的8倍吞吐量提升,并提供完整的Python实现示例,涵盖队列管理、内存优化等实战技巧。特别强调企业级应用中的两级调度设计和自适应优化策略,为AI推理性能优

文章图片
#CANN
CANN Runtime批处理调度源码解析 小批量推理请求合并的艺术

摘要:本文深入解析CANNRuntime的批处理调度技术,揭示其如何通过智能请求合并提升NPU计算效率。核心内容包括动态批大小调整算法、延迟与吞吐量权衡策略,以及基于源码(BatchScheduler类)的具体实现。文章通过实测数据展示批处理带来的8倍吞吐量提升,并提供完整的Python实现示例,涵盖队列管理、内存优化等实战技巧。特别强调企业级应用中的两级调度设计和自适应优化策略,为AI推理性能优

文章图片
#CANN
【前瞻创想】基于Kurator构建智能化分布式AIGC管理平台:从理论到实践

摘要:本文系统阐述了Kurator分布式云原生平台与AIGC工作负载的深度整合方案。针对AIGC特有的计算密集型、数据密集型等特性,创新性地提出基于"舰队"范式的智能算力调度架构,通过增强的ClusterAPI、优化调度算法和端到端流水线管理,实现跨多云环境的资源高效利用。实测数据显示,该方案可提升GPU利用率至65-75%,降低40%训练成本,并支持分钟级全球部署。文章包含架

文章图片
#AIGC#分布式#算法
`serde` 深度解析:Rust 序列化与反序列化的艺术

在现代软件中,数据交换(Data Interchange)无处不在,例如在 Web API (JSON)、配置文件 (TOML)OML) 或数据库 (Binary) 之间。// 目标:// Rust struct <---> JSON 字符串id: u64,传统方式是为每种格式(JSON, TOML, Bincode)编写特定的转换代码,这导致了大量的重复劳动和错误。serde解决了这个问题,它提

文章图片
#rust#开发语言#后端
Ascend C 算子开发全流程揭秘 - 从 msopgen 到精度校验

本文系统介绍了昇腾AI处理器上基于AscendC的自定义算子全流程开发方法。首先阐述了msopgen工具链的核心作用,解析了其生成的标准项目结构;深入讲解了AscendC算子的三层流水线架构原理(Copy-In、Compute、Copy-Out)。通过构建Add算子的实战案例,详细展示了从工程生成、内核函数实现到主机端调用的完整开发过程,并重点强调了精度校验作为质量保障的关键环节。文章还提供了企业

文章图片
#前端#昇腾#CANN
复杂算子实战 - Triton实现昇腾上的Gather算子优化

本文系统研究了Gather算子在昇腾NPU上的Triton优化实现,针对推荐系统等场景中的嵌入式表示查找问题,提出多级并行架构、内存访问优化、动态负载均衡等关键技术方案。实验表明,该方案在典型场景下实现3.2倍性能提升和45%内存效率提升,为NPU算子开发提供了可复用的最佳实践。文章详细解析了Gather算子的计算特性与NPU适配挑战,给出生产级实现代码和性能优化策略,并展望了AI驱动调优等未来方

文章图片
#昇腾#CANN
    共 60 条
  • 1
  • 2
  • 3
  • 6
  • 请选择