logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型学习6-模型量化与推理部署

基于不同数值表示的特点,研究者提出了模型量化方法,即将模型中的高精度浮点数映射至低比特定点数或整数表示,在尽量保持模型性能的前提下,显著降低模型的存储需求与计算开销。相比之下,定点或低比特整数(如INT8、INT4)可大幅减少模型参数与中间激活的存储需求,从而缓解显存与算力瓶颈,但也会带来数值精度下降的问题。因此,传统量化方法在LLM上的应用效果受限,亟需更为精细的量化方案。为应对上述挑战,业界与

#学习
到底了