SQingL 个人主页

@weixin_43826536

SQingL

2023-03-23 10:36:35 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

LLM 推理常见参数

现在常见的LLM基本都是只包含的，每个Token在输入模型的TransformerDecoder之前，都会首先从TokenEmbedding（有些也叫WordEmbedding）中通过查表获取对应的embedding向量，然后将embedding向量输入TransformerDecoder，并且在最后一层输出的也是同维度的embedding。在预测下一个Token时，实际只利用了上一个Token的

#人工智能 #自然语言处理 #语言模型 +1

大模型分布式训练之多维度混合并行

GLM-130B 利用自回归空白填充作为其主要的预训练目标，以下图中的句子为例，它掩盖了随机的连续文本区间（例如，“complete unkown”），并对其进行自回归预测。除此之外，我们也可以采用 DP + TP 进行组合、也可以使用 PP + TP 进行组合，还可以使用 ZeRO3 代替 DP + PP + TP，ZeRO3 本质上是DP+MP的组合，并且无需对模型进行过多改造，使用更方便。同

#分布式 #人工智能 #自然语言处理 +1

大模型分布式训练之自动并行

上面提到 GSPMD 基于。

#分布式 #人工智能 #自然语言处理 +1

大模型训练之显存问题

大模型的文件大小与其参数量有关，通常大模型是以半精度存储的， Xb 的模型文件大概是 2X GB多一些，例如 13b 的模型文件大小大约是 27GB 左右。一般来说推理模型需要的显存约等于模型文件大小，全参训练需要的显存约为推理所需显存的三倍到四倍，正常来说，在不量化的情况下4张 v100 显卡推理 65b 的模型都会有一些吃力，无法进行训练，需要通过 LoRA 或者****QLoRA 采用低秩分

#深度学习 #人工智能

大模型分布式训练之序列并行

除此之外，从文章细节里面可以看到，部分的计算的冗余被消除了，且重叠了一部分的通信，使得设备可以花更多的时间用于计算上面。当两个特性都打开的时候，总共可以降低8成左右的激活值开销，尽管比全部激活值重计算的结果要稍高，但是在吞吐率上的提升还是非常的明显的。一共是 10bsh。通过添加序列并行并没有增加额外的通信开销，反而在后向传播代码的实现上，还把 Reduce-Scatter 和权重梯度的计算做了重

#深度学习 #人工智能 #分布式 +1

大模型推理

需要注意的是，显存的占用情况可能会受到硬件设备、深度学习框架和模型实现的影响。具体来说，INT8在相同的内存空间下可以存储更多的数据，从而可以在相同的计算资源下进行更多的并行计算。需要注意的是，推理速度还受到模型大小、输入数据大小、计算操作的复杂度以及硬件设备的性能等因素的影响。综上所述，使用INT8和FP16数据类型可以在大语言模型的推理过程中提高推理速度，但需要根据具体场景和硬件设备的支持情况

#人工智能 #语言模型 #自然语言处理 +1

大模型训练之分布式训练

本文主要讲解了大模型分布式训练并行技术的数据并行，并以Pytorch为主线讲解了DP、DDP、FSDP三种不同的数据并行方案。单进程多线程模式，由于锁的机制导致线程间同步存在瓶颈。使用普通的All-Reduce机制，所有的卡需要将梯度同步给0号节点，并由0号节点平均梯度后反向传播，再分发给所有其他节点，意味着0号节点负载很重。由于第二点的原因，导致0号GPU通讯成本是随着GPU数量的上升而线性上升

#分布式 #人工智能

大模型之分词！

分词是自然语言处理的基础，分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。

#深度学习 #人工智能 #nlp

大模型分布式训练之张量并行

和流水线并行类似，张量并行也是将模型分解放置到不同的GPU上，以解决单块GPU无法储存整个模型的问题。和流水线并行不同的地方在于，

#分布式 #自然语言处理 #人工智能 +2

大模型之训练数据集数据格式

在这个示例中，输入数据是一个句子，奖励数据是一个实数值，动作数据是生成的句子，状态数据是模型的隐藏状态。每一行代表一个样本，第一列是输入数据，第二列是对应的奖励数据，第三列是生成的动作数据，第四列是状态数据。需要注意的是，具体的数据集格式可能会因任务类型、数据来源和使用的深度学习框架而有所不同。需要注意的是，具体的数据集格式可能会因任务类型、数据来源和使用的深度学习框架而有所不同。需要注意的是，使

#深度学习 #人工智能 #机器学习

共 39 条

请选择