简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
大模型之大模型压缩(量化、剪枝、蒸馏、低秩分解),推理(vllm)
一、模型压缩目标:(1)减少模型显存占用;(2)加快推理速度;(3)减少精度损失。二、模型压缩算法分类(如何降低权重和激活成本):(1)模型量化(quantization):旨在通过减少模型参数的表示精度来降低模型的存储空间和计算复杂度;(2)参数剪枝(pruning):旨在通过删除模型中的不重要连接或参数来减少模型的大小和计算量;(3)知识蒸馏(knowledge distillation):指
到底了