PythonJavaC++go 个人主页

@qqzhuimengren

PythonJavaC++go

2022-09-20 18:22:08 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【书生3.3】LMDeploy 量化部署进阶实践

kv cache是一种缓存技术，通过存储键值对的形式来复用计算结果，以达到提高性能和降低内存消耗的目的。在大规模训练和推理中，kv cache可以显著减少重复计算量，从而提升模型的推理速度。准确说，模型量化是一种优化技术，旨在减少机器学习模型的大小并提高其推理速度。模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、kv cache占用的显存，以及中间运算结果占用的显存。随着模型变得

#人工智能 #开源