
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
GRPO 是一种通过组内归一化移除 Critic 网络的高效强化学习算法;它利用相对优势和在线探索,解决了 PPO 的显存瓶颈和 DPO 的探索不足问题,是目前训练大模型强推理能力(System 2)的最佳工程实践。
GRPO 是一种通过组内归一化移除 Critic 网络的高效强化学习算法;它利用相对优势和在线探索,解决了 PPO 的显存瓶颈和 DPO 的探索不足问题,是目前训练大模型强推理能力(System 2)的最佳工程实践。
在预训练完毕之后,我们的模型已经成为了一个学习完所有知识的学生,但是他缺乏用适当的方式表达知识的能力,还是停留在续写文本的阶段,无法直接回答我们的问题,所以监督微调这个时候就出来了,这个指令微调的作用,就是让模型在预训练的基础上,通过特定的数据和训练,让模型能够更好的回答用户的问题。预训练一般包括三大要素,网络结构,损失函数,训练数据。指令微调和预训练的方式几乎没有区别,只是训练数据的不同。
在预训练完毕之后,我们的模型已经成为了一个学习完所有知识的学生,但是他缺乏用适当的方式表达知识的能力,还是停留在续写文本的阶段,无法直接回答我们的问题,所以监督微调这个时候就出来了,这个指令微调的作用,就是让模型在预训练的基础上,通过特定的数据和训练,让模型能够更好的回答用户的问题。预训练一般包括三大要素,网络结构,损失函数,训练数据。指令微调和预训练的方式几乎没有区别,只是训练数据的不同。
在实际训练万亿参数模型(如 GPT-4)时,通常是三种并行混合使用,称为比如有 1000 张卡。我们分成 100 个组,每组 10 张卡。这 100 个组之间做数据并行(复制模型)。在这 10 张卡的一组内,把 96 层模型切分成 5 个阶段 (Stage),每个阶段 2 张卡。在这 2 张卡内部,把具体的矩阵切开计算。并行方式切分对象核心通信操作解决痛点瓶颈DP数据 (Batch)训练太慢显存容
在实际训练万亿参数模型(如 GPT-4)时,通常是三种并行混合使用,称为比如有 1000 张卡。我们分成 100 个组,每组 10 张卡。这 100 个组之间做数据并行(复制模型)。在这 10 张卡的一组内,把 96 层模型切分成 5 个阶段 (Stage),每个阶段 2 张卡。在这 2 张卡内部,把具体的矩阵切开计算。并行方式切分对象核心通信操作解决痛点瓶颈DP数据 (Batch)训练太慢显存容
模型量化的本质,是在精度与效率之间做权衡。简单来说,就是把高精度的浮点数映射到低精度的整数空间中。以Llama13B为例,如果用FLOAT32来加载,参数要占52GB,如果用FLOAT16来加载,需要26GB,用int8仅需要13GB.要理解量化,首先必须理解计算机是如何存储数字的。在深度学习模型(如 PyTorch 的默认设置)中,权重和激活值通常使用 FP32(32-bit Floating
模型量化的本质,是在精度与效率之间做权衡。简单来说,就是把高精度的浮点数映射到低精度的整数空间中。以Llama13B为例,如果用FLOAT32来加载,参数要占52GB,如果用FLOAT16来加载,需要26GB,用int8仅需要13GB.要理解量化,首先必须理解计算机是如何存储数字的。在深度学习模型(如 PyTorch 的默认设置)中,权重和激活值通常使用 FP32(32-bit Floating
栈是硬件特性:CPU 有专门的 SP 寄存器来追踪它。生长方向:在物理内存中,栈通常是从高地址向低地址“倒着长”的。函数调用即入栈:我们写的每一行函数调用,底层都是一次PUSH动作;函数返回,就是POP动作。现在,物理和硬件原理我们都懂了。但是,我们在写 Python 或 C++ 代码时,通常不会直接去操作 SP 寄存器。我们需要更高级的“抽象”。同时,我们还没详细讲队列。因为队列在 CPU 硬件

混合精度训练(Mixed Precision Training)是现代深度学习(特别是大模型训练)的基石。如果不理解它,就无法真正理解为什么现在的显卡(如 H100, A100)要这样设计,也无法理解大模型训练中的显存优化技巧。







