
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
我把 GPT-2 的 KV Cache 跑通了:miniONNXRuntime 工程拆解
本文探讨了在miniONNXRuntime中实现GPT-2 KV Cache优化的关键技术。通过分析生成式模型在长上下文下的性能瓶颈,提出了基于KV Cache的优化方案:将计算过程分为prefill和decode双图执行,避免历史token的重复计算。文章详细阐述了工程实现细节,包括运行时分层架构、shape处理逻辑和provider选择策略,并展示了KV Cache如何显著降低长序列生成时的计

我做了一个迷你版 ONNX Runtime,终于把推理引擎的主线看懂了
本文介绍了作者开发的迷你版ONNX Runtime实现,解析了ONNX模型从加载到推理输出的完整流程。项目以yolov8n.onnx为例,展示了模型解析、图结构构建、算子调度和结果输出的关键环节。文章详细说明了ONNX与Runtime的分工关系,重点阐述了迷你版Runtime的模块结构,包括loader、model、runtime、kernels和tools五大组件。通过Session的组织,实现

到底了







