logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型强化学习:GRPO超级无敌深度剖析,看完即高手

GRPO 是一种通过组内归一化移除 Critic 网络的高效强化学习算法;它利用相对优势和在线探索,解决了 PPO 的显存瓶颈和 DPO 的探索不足问题,是目前训练大模型强推理能力(System 2)的最佳工程实践。

#算法#人工智能#神经网络 +3
大模型强化学习:GRPO超级无敌深度剖析,看完即高手

GRPO 是一种通过组内归一化移除 Critic 网络的高效强化学习算法;它利用相对优势和在线探索,解决了 PPO 的显存瓶颈和 DPO 的探索不足问题,是目前训练大模型强推理能力(System 2)的最佳工程实践。

#算法#人工智能#神经网络 +3
大模型的监督微调基础详解

在预训练完毕之后,我们的模型已经成为了一个学习完所有知识的学生,但是他缺乏用适当的方式表达知识的能力,还是停留在续写文本的阶段,无法直接回答我们的问题,所以监督微调这个时候就出来了,这个指令微调的作用,就是让模型在预训练的基础上,通过特定的数据和训练,让模型能够更好的回答用户的问题。预训练一般包括三大要素,网络结构,损失函数,训练数据。指令微调和预训练的方式几乎没有区别,只是训练数据的不同。

#机器学习#深度学习#人工智能 +3
大模型的监督微调基础详解

在预训练完毕之后,我们的模型已经成为了一个学习完所有知识的学生,但是他缺乏用适当的方式表达知识的能力,还是停留在续写文本的阶段,无法直接回答我们的问题,所以监督微调这个时候就出来了,这个指令微调的作用,就是让模型在预训练的基础上,通过特定的数据和训练,让模型能够更好的回答用户的问题。预训练一般包括三大要素,网络结构,损失函数,训练数据。指令微调和预训练的方式几乎没有区别,只是训练数据的不同。

#机器学习#深度学习#人工智能 +3
大模型部署必备知识:分布式训练一次性讲清

在实际训练万亿参数模型(如 GPT-4)时,通常是三种并行混合使用,称为比如有 1000 张卡。我们分成 100 个组,每组 10 张卡。这 100 个组之间做数据并行(复制模型)。在这 10 张卡的一组内,把 96 层模型切分成 5 个阶段 (Stage),每个阶段 2 张卡。在这 2 张卡内部,把具体的矩阵切开计算。并行方式切分对象核心通信操作解决痛点瓶颈DP数据 (Batch)训练太慢显存容

#分布式#人工智能#缓存 +3
大模型部署必备知识:分布式训练一次性讲清

在实际训练万亿参数模型(如 GPT-4)时,通常是三种并行混合使用,称为比如有 1000 张卡。我们分成 100 个组,每组 10 张卡。这 100 个组之间做数据并行(复制模型)。在这 10 张卡的一组内,把 96 层模型切分成 5 个阶段 (Stage),每个阶段 2 张卡。在这 2 张卡内部,把具体的矩阵切开计算。并行方式切分对象核心通信操作解决痛点瓶颈DP数据 (Batch)训练太慢显存容

#分布式#人工智能#缓存 +3
大模型必备知识:量化加速

模型量化的本质,是在精度与效率之间做权衡。简单来说,就是把高精度的浮点数映射到低精度的整数空间中。以Llama13B为例,如果用FLOAT32来加载,参数要占52GB,如果用FLOAT16来加载,需要26GB,用int8仅需要13GB.要理解量化,首先必须理解计算机是如何存储数字的。在深度学习模型(如 PyTorch 的默认设置)中,权重和激活值通常使用 FP32(32-bit Floating

#算法#人工智能#深度学习 +3
大模型必备知识:量化加速

模型量化的本质,是在精度与效率之间做权衡。简单来说,就是把高精度的浮点数映射到低精度的整数空间中。以Llama13B为例,如果用FLOAT32来加载,参数要占52GB,如果用FLOAT16来加载,需要26GB,用int8仅需要13GB.要理解量化,首先必须理解计算机是如何存储数字的。在深度学习模型(如 PyTorch 的默认设置)中,权重和激活值通常使用 FP32(32-bit Floating

#算法#人工智能#深度学习 +3
算法初级教学第四步:栈与队列

栈是硬件特性:CPU 有专门的 SP 寄存器来追踪它。生长方向:在物理内存中,栈通常是从高地址向低地址“倒着长”的。函数调用即入栈:我们写的每一行函数调用,底层都是一次PUSH动作;函数返回,就是POP动作。现在,物理和硬件原理我们都懂了。但是,我们在写 Python 或 C++ 代码时,通常不会直接去操作 SP 寄存器。我们需要更高级的“抽象”。同时,我们还没详细讲队列。因为队列在 CPU 硬件

文章图片
#算法#链表#数据结构 +2
深度学习加速必备知识原理级讲解:混合精度训练

混合精度训练(Mixed Precision Training)是现代深度学习(特别是大模型训练)的基石。如果不理解它,就无法真正理解为什么现在的显卡(如 H100, A100)要这样设计,也无法理解大模型训练中的显存优化技巧。

#人工智能#算法#深度学习 +4
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择