logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【书生3.3】LMDeploy 量化部署进阶实践

kv cache是一种缓存技术,通过存储键值对的形式来复用计算结果,以达到提高性能和降低内存消耗的目的。在大规模训练和推理中,kv cache可以显著减少重复计算量,从而提升模型的推理速度。准确说,模型量化是一种优化技术,旨在减少机器学习模型的大小并提高其推理速度。模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、kv cache占用的显存,以及中间运算结果占用的显存。随着模型变得

文章图片
#人工智能#开源
最新版-bug

(win11)最新版的菜单栏:缩小、放大、关闭那块区域点击反而是窗口拉伸

到底了