HelloJolyne 个人主页

@weixin_46040794

HelloJolyne

2023-03-29 15:34:02 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

我把 GPT-2 的 KV Cache 跑通了：miniONNXRuntime 工程拆解

本文探讨了在miniONNXRuntime中实现GPT-2 KV Cache优化的关键技术。通过分析生成式模型在长上下文下的性能瓶颈，提出了基于KV Cache的优化方案：将计算过程分为prefill和decode双图执行，避免历史token的重复计算。文章详细阐述了工程实现细节，包括运行时分层架构、shape处理逻辑和provider选择策略，并展示了KV Cache如何显著降低长序列生成时的计

#c++#深度学习 #机器学习

我做了一个迷你版 ONNX Runtime，终于把推理引擎的主线看懂了

本文介绍了作者开发的迷你版ONNX Runtime实现，解析了ONNX模型从加载到推理输出的完整流程。项目以yolov8n.onnx为例，展示了模型解析、图结构构建、算子调度和结果输出的关键环节。文章详细说明了ONNX与Runtime的分工关系，重点阐述了迷你版Runtime的模块结构，包括loader、model、runtime、kernels和tools五大组件。通过Session的组织，实现

#c++#深度学习 #机器学习 +3

到底了