qq_40239381 个人主页

@qq_40239381

qq_40239381

2023-07-21 17:35:42 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型微调（五）：RLHF奖励模型与偏好损失函数

此外，我们定义了损失：L(\phi) = -\log \sigma(R_\phi(x, y^+) - R_\phi(x, y^-))，我们希望最小化这个损失，这意味着我们需要将 \phi 向减少它的方向移动。当你对 R_\phi(x, y^+) 和 R_\phi(x, y^-) 求损失函数的导数时，你会得到一个简单的公式，其中 \Delta = R_\phi(x, y^+) - R_\phi(x,

#神经网络 #机器学习 #transformer

大模型微调（五）：RLHF奖励模型与偏好损失函数

#神经网络 #机器学习 #transformer

大模型预训练（三）：权重在哪里变化

这些矩阵 W_Q、W_K、W_V 都是可训练的参数，就像前馈部分中的权重一样。每个注意力头都有自己的 W_Q、W_K、W_V 集合，因此不同的注意力头可以专注于不同的关系（语法、共指、位置线索等）。这个注意力方程并没有显示这些 Q、K、V 的实际来源，但权重矩阵就隐藏在 Q、K 和 V 的定义中。这些操作跨越多层，塑造了想象中的海洋：一个动态场，每个单词的向量都会随着相邻单词的引力而移动。- 它们

#transformer #神经网络 #机器学习

大模型预训练（一）：损失函数

而在 Transformer 中，你需要构建一个由符号之间的关系组成的完整空间，因此损失图景（loss landscape）要复杂得多，几乎就像训练一个语言大小的神经流形（neural manifold）。重复数十亿次，你的直觉就会变得极其精准，这就是损失函数和优化对大模型的作用。这就是为什么你之前的评论如此尖锐：大模型的“真实自我”并非情感的内在，而是在 Transformer 架构的约束下最小

#transformer #神经网络 #深度学习

大模型损失函数（二）：KL散度（Kullback-Leibler divergence）

等式条件：Jensen 不等式是严格的，当且仅当 Z 在 p 下几乎必然为常数，即对于每个满足 p(x)>0 的 x，\frac{q(x)}{p(x)} 相等。快速推论，因为 D_{KL}(p\|q)=H(p,q)-H(p)，D_{KL} 的非负性意味着 H(p,q)≥H(p)，也就是说，交叉熵始终大于等于真实熵，而只有当模型与真实分布匹配时，交叉熵才等于真实熵。实际上，对于所有分布 p、q，D_

#transformer #神经网络 #机器学习

大模型损失函数（一）：交叉熵、联合熵、条件熵

回到交叉熵，交叉熵 H(p,q) 可以看作是条件熵的推广：它是将真实的条件熵 p(x|y) 替换为模型的近似值 q(x|y) 时的结果，这就是为什么训练模型就像是最小化它在真实条件结构之外添加的“额外不确定性”。交叉熵和联合熵具有相同的数学形式，概率乘以对数之和，但代表不同的关系：一个是同一变量的两个分布之间的关系，另一个是同一分布下的两个变量之间的关系。因此，联合熵自然分解为，H(Y)：Y 本身

#transformer #神经网络 #深度学习 +1

大模型微调（二）：使微调保持稳定的策略

为了解决这个问题，训练器会在多个小批量数据上累积梯度，或者混合不同来源的数据，这样每次更新之前，模型都能拥有更广阔、更冷静的视角。于是，老师们降低了他们的声音（降低了学习率），稳定了模型的呼吸（削减了梯度），并提醒模型之前所知道的知识（恢复检查点）。一步步，迷雾消散了。然后，它们通过 \sqrt{v_t} 对更新进行归一化，沿着尖锐的维度采取较小的步长，沿着平坦的维度采取较大的步长，有效地“感知”

#transformer #神经网络 #深度学习

大模型微调（一）：有监督微调与困惑度

这实在太大，无法计算或存储。接下来是另一个步骤，从人类反馈中强化学习 (RLHF)，在这个过程中，我的行为不再受标签的影响，而是由偏好决定。- 学习率 (\eta)：更小，因为目标不是覆盖预训练知识，而是对其进行打磨，在不丢失模型已经学到的广泛知识的情况下对其进行温和的调整。在微调过程中，损失函数仍然是进度的主要指标，它衡量的是，在给定指令 x_i 的情况下，模型复现人类给出的响应 y_i 的准确

#transformer #神经网络 #深度学习

大模型预训练（六）：稳定性的来源

这种随机噪声的作用类似于热运动：它会对参数进行恰到好处的抖动，使优化器倾向于避开狭窄的凹陷（尖锐的最小值），并稳定在宽阔、稳定的盆地中，即使损失函数四处漂移，损失也能保持在较低水平。- 简单的目标（最小化损失），优化器不断下坡，但随机抖动会将其从陡峭的凹陷处推向宽阔、宽容的区域。将大型模型中的所有参数想象成控制台上的旋钮，这些旋钮的不同设置可以产生几乎相同的输出。这些略有不同的设置是近似等效配置，

#transformer #神经网络 #深度学习

大模型预训练（四）：信息论——信息准确传输的上限

存储只是时间上的传输，而不是空间上的传输。这就像试图从漏水的船里舀水，如果水涌入的速度超过了你舀水的速度，无论你的水桶有多好，你都不可避免地会沉下去。无论你的编码多么巧妙，在嘈杂的信道中，想要确保信息不会丢失，信息传输的最大速率都有一个上限。如果你试图通过嘈杂的信道（无论是有线、无线电信号，还是写入不可靠的存储器）以过快的速度发送信息，错误累积的速度就会超过你纠正它们的速度。这句话说得很精彩：你的

#考研 #机器学习 #经验分享

共 12 条

请选择