
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【书生3.3】LMDeploy 量化部署进阶实践
kv cache是一种缓存技术,通过存储键值对的形式来复用计算结果,以达到提高性能和降低内存消耗的目的。在大规模训练和推理中,kv cache可以显著减少重复计算量,从而提升模型的推理速度。准确说,模型量化是一种优化技术,旨在减少机器学习模型的大小并提高其推理速度。模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、kv cache占用的显存,以及中间运算结果占用的显存。随着模型变得

最新版-bug
(win11)最新版的菜单栏:缩小、放大、关闭那块区域点击反而是窗口拉伸
到底了







