较劲男子汉个人主页

@m0_46721576

较劲男子汉

2022-12-29 17:43:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

动态批处理调度在NPU推理中的艺术与实战

本文深入探讨了大模型推理场景下动态批处理调度的核心技术，重点剖析了max_batch_size与max_tokens参数的优化策略。通过CANN项目中的实际代码实现，展示了如何构建高效的请求调度器，在保证内存安全的前提下最大化NPU利用率。文章包含性能测试数据、生产级代码示例及常见问题解决方案，为开发者提供了从理论到实践的完整指导。关键点包括：双重约束检查算法、吞吐量与延迟的平衡技巧，以及针对不同

#CANN

动态批处理调度在NPU推理中的艺术与实战

#CANN

KV Cache分页管理 PagedAttention在CANN中的实现与性能突破

本文深入解析CANN计算算子库中PagedAttention的实现，重点介绍其KVCache分页管理机制。通过block_table内存布局优化，LLaMA-70B模型推理显存占用降低41%，吞吐量提升3.2倍。文章从技术原理、实战实现到性能优化，系统阐述了分页式KVCache管理如何解决大模型推理中的显存碎片化问题。核心创新是将传统连续存储的键值缓存拆分为固定大小的内存块，实现类似操作系统的虚拟

#人工智能 #CANN

KV Cache分页管理 PagedAttention在CANN中的实现与性能突破

#人工智能 #CANN

CANN Runtime批处理调度源码解析小批量推理请求合并的艺术

摘要：本文深入解析CANNRuntime的批处理调度技术，揭示其如何通过智能请求合并提升NPU计算效率。核心内容包括动态批大小调整算法、延迟与吞吐量权衡策略，以及基于源码(BatchScheduler类)的具体实现。文章通过实测数据展示批处理带来的8倍吞吐量提升，并提供完整的Python实现示例，涵盖队列管理、内存优化等实战技巧。特别强调企业级应用中的两级调度设计和自适应优化策略，为AI推理性能优

#CANN

CANN Runtime批处理调度源码解析小批量推理请求合并的艺术

#CANN

【前瞻创想】基于Kurator构建智能化分布式AIGC管理平台：从理论到实践

摘要：本文系统阐述了Kurator分布式云原生平台与AIGC工作负载的深度整合方案。针对AIGC特有的计算密集型、数据密集型等特性，创新性地提出基于"舰队"范式的智能算力调度架构，通过增强的ClusterAPI、优化调度算法和端到端流水线管理，实现跨多云环境的资源高效利用。实测数据显示，该方案可提升GPU利用率至65-75%，降低40%训练成本，并支持分钟级全球部署。文章包含架

#AIGC #分布式 #算法

`serde` 深度解析：Rust 序列化与反序列化的艺术

在现代软件中，数据交换（Data Interchange）无处不在，例如在 Web API (JSON)、配置文件 (TOML)OML) 或数据库 (Binary) 之间。// 目标：// Rust struct <---> JSON 字符串id: u64,传统方式是为每种格式（JSON, TOML, Bincode）编写特定的转换代码，这导致了大量的重复劳动和错误。serde解决了这个问题，它提

#rust #开发语言 #后端

Ascend C 算子开发全流程揭秘 - 从 msopgen 到精度校验

本文系统介绍了昇腾AI处理器上基于AscendC的自定义算子全流程开发方法。首先阐述了msopgen工具链的核心作用，解析了其生成的标准项目结构；深入讲解了AscendC算子的三层流水线架构原理（Copy-In、Compute、Copy-Out）。通过构建Add算子的实战案例，详细展示了从工程生成、内核函数实现到主机端调用的完整开发过程，并重点强调了精度校验作为质量保障的关键环节。文章还提供了企业

#前端 #昇腾 #CANN

复杂算子实战 - Triton实现昇腾上的Gather算子优化

本文系统研究了Gather算子在昇腾NPU上的Triton优化实现，针对推荐系统等场景中的嵌入式表示查找问题，提出多级并行架构、内存访问优化、动态负载均衡等关键技术方案。实验表明，该方案在典型场景下实现3.2倍性能提升和45%内存效率提升，为NPU算子开发提供了可复用的最佳实践。文章详细解析了Gather算子的计算特性与NPU适配挑战，给出生产级实现代码和性能优化策略，并展望了AI驱动调优等未来方

#昇腾 #CANN

共 60 条

请选择