xu28uoW3E 个人主页

@xu28uoW3E

xu28uoW3E

2026-04-25 00:30:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型学习6-模型量化与推理部署

基于不同数值表示的特点，研究者提出了模型量化方法，即将模型中的高精度浮点数映射至低比特定点数或整数表示，在尽量保持模型性能的前提下，显著降低模型的存储需求与计算开销。相比之下，定点或低比特整数（如INT8、INT4）可大幅减少模型参数与中间激活的存储需求，从而缓解显存与算力瓶颈，但也会带来数值精度下降的问题。因此，传统量化方法在LLM上的应用效果受限，亟需更为精细的量化方案。为应对上述挑战，业界与

#学习

到底了