
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:本文介绍了AI推理中单Stream与Multi-Stream的差异。单Stream串行执行导致硬件利用率不足50%,而Multi-Stream通过预处理、推理、后处理三阶段流水线并行,利用率可提升至85%以上。文章详细解析了CANN Runtime中Stream的并行执行机制,包括任务队列管理、事件同步和硬件调度策略,并特别说明了解码阶段多Stream并发执行的实现方式。通过Stream间任

摘要:本文介绍了AI推理中单Stream与Multi-Stream的差异。单Stream串行执行导致硬件利用率不足50%,而Multi-Stream通过预处理、推理、后处理三阶段流水线并行,利用率可提升至85%以上。文章详细解析了CANN Runtime中Stream的并行执行机制,包括任务队列管理、事件同步和硬件调度策略,并特别说明了解码阶段多Stream并发执行的实现方式。通过Stream间任

摘要:本文介绍了AI推理中单Stream与Multi-Stream的差异。单Stream串行执行导致硬件利用率不足50%,而Multi-Stream通过预处理、推理、后处理三阶段流水线并行,利用率可提升至85%以上。文章详细解析了CANN Runtime中Stream的并行执行机制,包括任务队列管理、事件同步和硬件调度策略,并特别说明了解码阶段多Stream并发执行的实现方式。通过Stream间任

PagedAttention通过分页管理KV Cache,显著提升显存利用率。传统KV Cache在解码阶段持续增长,导致显存不足(如LLaMA-13B在Batch=8时需25.6GB)。PagedAttention借鉴操作系统分页机制,将Cache切分为固定大小的Block,物理不连续但逻辑连续,使显存利用率从40%提升至95%。CANN Runtime 8.0原生支持该技术,通过动态分配Blo








