本文详细介绍了大模型量化技术,包括量化概念及GPTQ、GGUF、PTQ和AWQ四种主要量化方法的区别与应用。量化通过将高精度数值转换为低精度数值,减少模型大小和资源占用,同时保持模型性能。不同量化方法适用于不同场景,如GPTQ适合GPU加速,GGUF支持CPU运行,PTQ为训练后量化,AWQ则选择性量化非关键权重,帮助开发者根据硬件资源选择最合适的量化方案。

qwen 大模型

我们会看到这么多量化后的模型,到底他们之间有什么区别呢?

1.量化概念

量化是指的,将高精度的数值转换为低精度的数值,这样能够减少模型的大小,同时降低对服务器资源的占用,下面将通过一个具体例子来介绍量化的概念。

假设你有36个以半精度(fp16)表示的权重值,如下矩阵所示

fp16矩阵

我们希望对这些值记性int8量化。具体执行步骤如下:

(1)旧范围=fp16格式中的最大值-fp16格式中的最小值=0.9795 - 0.0298 = 0.9497

(2)新范围=int8包含从-128到127的数字,因此范围=127-(-128)= 255

(3)比例(scale)= 新范围的最大值/旧范围的最大值=127 / 0.9795 = 129.657

(4)量化值 = 四舍五入(比例*原始值)

int8矩阵

(5)反量化值 = 量化值 / 比例

(6)四舍五入误差 = 当我们进行反量化到fp16时,可以看到数值并不完全相同。这是量化到反量化过程的结果所导致的误差。

  1. 量化方法

(1)GPTQ:GPT模型的训练后量化方法

GPTQ(Group-wise Precision Tuning Quantization)是一种静态后的训练量化技术。“静态”指的是预训练模型一旦确定,经过量化后量化参数不再更改。GPTQ量化技术是将fp16精度的模型量化为4-bit或8-bit,在节省了显存大小的同时大大的提高了推理的速度。

(2)GGUF && GGML

GGUF是GGML的新版本,尽管GPTQ在压缩方面表现出色,但如果没有运行它所需要的硬件,因为它对GPU的依赖可能会成为一个缺点。

GGUF是一种新的量化方法,是LLM库的C++复制品,支持多种LLM,比如LLaMA系列和Qwen系列等,它允许用户在CPU上运行LLM,同时将其部分层次转移到GPU上以加速运行。这种方法对于那些没有GPU资源的用户非常友好,是一种不错的选择。

这种量化方法提供了从2到8bit精度的不同级别的量化,我们通过获取原始的LLM大模型,将其转换为GGUF格式,然后再将GGUF格式量化为较低的精度。

(3)PTQ(Post-Training Quantization)

PTQ量化方法是在模型训练后,再对模型进行量化,将模型的浮点数权重和激活权重转换为较低精度的表示,从而减少模型大小和计算复杂度,同时保持模型的精度损失较小。PTQ方法分为两类:只量化模型权重的方法和同时量化权重与激活的方法。

(4)AWQ(Activation-aware Weight Quantization)

AWQ是一种激活感知的权重量化方法,这是一种类似于GPTQ的量化方法。其中AWQ与GPTQ方法之间最大的区别是AWQ假设并非所有的权重对LLM的性能都同等重要。也就是在量化过程中,不会对所有的权重进行量化,只会量化对于模型保持有效性不重要的权重,因此在论文中提到与GPTQ相比,该方法在保持类似甚至更好性能的同时实现了显著的加速

  1. 量化总结

将量化模型的权重内存占用减少为LLM推理带来了如下几个方面的优点:

(1)减少模型服务的硬件需求:量化后的模型可以使用更便宜的GPU服务器进行提供推理服务。

(2)为KV缓存提供更多的空间,以支持更大的批量处理大小和序列长度。

(3)更快的解码延迟,由于解码过程中受内存带宽限制,减少权重大小的数据移动能够改善这一点。

(4)更高的计算与内存访问比,这允许模型在解码期间充分利用可用的计算资源。

读者福利大放送:如果你对大模型感兴趣,想更加深入的学习大模型**,那么这份精心整理的大模型学习资料,绝对能帮你少走弯路、快速入门**

如果你是零基础小白,别担心——大模型入门真的没那么难,你完全可以学得会

👉 不用你懂任何算法和数学知识,公式推导、复杂原理这些都不用操心;
👉 也不挑电脑配置,普通家用电脑完全能 hold 住,不用额外花钱升级设备;
👉 更不用你提前学 Python 之类的编程语言,零基础照样能上手。

你要做的特别简单:跟着我的讲解走,照着教程里的步骤一步步操作就行。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

现在这份资料免费分享给大家,有需要的小伙伴,直接VX扫描下方二维码就能领取啦😝↓↓↓
在这里插入图片描述

为什么要学习大模型?

数据显示,2023 年我国大模型相关人才缺口已突破百万,这一数字直接暴露了人才培养体系的严重滞后与供给不足。而随着人工智能技术的飞速迭代,产业对专业人才的需求将呈爆发式增长,据预测,到 2025 年这一缺口将急剧扩大至 400 万!!
在这里插入图片描述

大模型学习路线汇总

整体的学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战,跟着学习路线一步步打卡,小白也能轻松学会!
在这里插入图片描述

大模型实战项目&配套源码

光学理论可不够,这套学习资料还包含了丰富的实战案例,让你在实战中检验成果巩固所学知识
在这里插入图片描述

大模型学习必看书籍PDF

我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

大模型超全面试题汇总

在面试过程中可能遇到的问题,我都给大家汇总好了,能让你们在面试中游刃有余
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
👉获取方式

😝有需要的小伙伴,可以保存图片到VX扫描下方二维码免费领取【保证100%免费】
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最适合零基础的!!

Logo

更多推荐