大模型量化技术完全指南：GPTQ、GGUF、PTQ和AWQ区别详解 | 程序员必藏

本文介绍了大模型量化技术的概念及四种主要方法：GPTQ、GGUF、PTQ和AWQ。量化通过将高精度数值转换为低精度数值，减少模型大小和资源占用，同时保持性能。GPTQ适合GPU加速，GGUF支持CPU运行，PTQ为训练后量化，AWQ则选择性量化非关键权重。量化技术可降低硬件需求、提高推理效率，使大模型在普通设备上也能高效运行。文中还提供了大模型学习资料获取方式，适合零基础开发者系统学习。

程序员糖仔

1023人浏览 · 2025-09-28 18:39:56

程序员糖仔 · 2025-09-28 18:39:56 发布

本文详细介绍了大模型量化技术，包括量化概念及GPTQ、GGUF、PTQ和AWQ四种主要量化方法的区别与应用。量化通过将高精度数值转换为低精度数值，减少模型大小和资源占用，同时保持模型性能。不同量化方法适用于不同场景，如GPTQ适合GPU加速，GGUF支持CPU运行，PTQ为训练后量化，AWQ则选择性量化非关键权重，帮助开发者根据硬件资源选择最合适的量化方案。

qwen 大模型

我们会看到这么多量化后的模型，到底他们之间有什么区别呢？

1.量化概念

量化是指的，将高精度的数值转换为低精度的数值，这样能够减少模型的大小，同时降低对服务器资源的占用，下面将通过一个具体例子来介绍量化的概念。

假设你有36个以半精度（fp16）表示的权重值，如下矩阵所示

fp16矩阵

我们希望对这些值记性int8量化。具体执行步骤如下：

（1）旧范围=fp16格式中的最大值-fp16格式中的最小值=0.9795 - 0.0298 = 0.9497

（2）新范围=int8包含从-128到127的数字，因此范围=127-（-128）= 255

（3）比例（scale）= 新范围的最大值/旧范围的最大值=127 / 0.9795 = 129.657

（4）量化值 = 四舍五入（比例*原始值）

int8矩阵

（5）反量化值 = 量化值 / 比例

（6）四舍五入误差 = 当我们进行反量化到fp16时，可以看到数值并不完全相同。这是量化到反量化过程的结果所导致的误差。

量化方法

（1）GPTQ：GPT模型的训练后量化方法

GPTQ(Group-wise Precision Tuning Quantization)是一种静态后的训练量化技术。“静态”指的是预训练模型一旦确定，经过量化后量化参数不再更改。GPTQ量化技术是将fp16精度的模型量化为4-bit或8-bit，在节省了显存大小的同时大大的提高了推理的速度。

（2）GGUF && GGML

GGUF是GGML的新版本，尽管GPTQ在压缩方面表现出色，但如果没有运行它所需要的硬件，因为它对GPU的依赖可能会成为一个缺点。

GGUF是一种新的量化方法，是LLM库的C++复制品，支持多种LLM，比如LLaMA系列和Qwen系列等，它允许用户在CPU上运行LLM，同时将其部分层次转移到GPU上以加速运行。这种方法对于那些没有GPU资源的用户非常友好，是一种不错的选择。

这种量化方法提供了从2到8bit精度的不同级别的量化，我们通过获取原始的LLM大模型，将其转换为GGUF格式，然后再将GGUF格式量化为较低的精度。

（3）PTQ（Post-Training Quantization）

PTQ量化方法是在模型训练后，再对模型进行量化，将模型的浮点数权重和激活权重转换为较低精度的表示，从而减少模型大小和计算复杂度，同时保持模型的精度损失较小。PTQ方法分为两类：只量化模型权重的方法和同时量化权重与激活的方法。

（4）AWQ（Activation-aware Weight Quantization）

AWQ是一种激活感知的权重量化方法，这是一种类似于GPTQ的量化方法。其中AWQ与GPTQ方法之间最大的区别是AWQ假设并非所有的权重对LLM的性能都同等重要。也就是在量化过程中，不会对所有的权重进行量化，只会量化对于模型保持有效性不重要的权重，因此在论文中提到与GPTQ相比，该方法在保持类似甚至更好性能的同时实现了显著的加速

量化总结

将量化模型的权重内存占用减少为LLM推理带来了如下几个方面的优点：

（1）减少模型服务的硬件需求：量化后的模型可以使用更便宜的GPU服务器进行提供推理服务。

（2）为KV缓存提供更多的空间，以支持更大的批量处理大小和序列长度。

（3）更快的解码延迟，由于解码过程中受内存带宽限制，减少权重大小的数据移动能够改善这一点。

（4）更高的计算与内存访问比，这允许模型在解码期间充分利用可用的计算资源。

读者福利大放送：如果你对大模型感兴趣，想更加深入的学习大模型**，那么这份精心整理的大模型学习资料，绝对能帮你少走弯路、快速入门**

如果你是零基础小白，别担心——大模型入门真的没那么难，你完全可以学得会！

👉 不用你懂任何算法和数学知识，公式推导、复杂原理这些都不用操心；
👉 也不挑电脑配置，普通家用电脑完全能 hold 住，不用额外花钱升级设备；
👉 更不用你提前学 Python 之类的编程语言，零基础照样能上手。

你要做的特别简单：跟着我的讲解走，照着教程里的步骤一步步操作就行。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

现在这份资料免费分享给大家，有需要的小伙伴，直接VX扫描下方二维码就能领取啦😝↓↓↓
在这里插入图片描述

为什么要学习大模型？

数据显示，2023 年我国大模型相关人才缺口已突破百万，这一数字直接暴露了人才培养体系的严重滞后与供给不足。而随着人工智能技术的飞速迭代，产业对专业人才的需求将呈爆发式增长，据预测，到 2025 年这一缺口将急剧扩大至 400 万！!
在这里插入图片描述

大模型学习路线汇总

整体的学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战，跟着学习路线一步步打卡，小白也能轻松学会！
在这里插入图片描述

大模型实战项目&配套源码

光学理论可不够，这套学习资料还包含了丰富的实战案例，让你在实战中检验成果巩固所学知识
在这里插入图片描述

大模型学习必看书籍PDF

我精选了一系列大模型技术的书籍和学习文档(电子版)，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

大模型超全面试题汇总

在面试过程中可能遇到的问题，我都给大家汇总好了，能让你们在面试中游刃有余
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述
👉获取方式：