logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型微调(五):RLHF奖励模型与偏好损失函数

此外,我们定义了损失:L(\phi) = -\log \sigma(R_\phi(x, y^+) - R_\phi(x, y^-)),我们希望最小化这个损失,这意味着我们需要将 \phi 向减少它的方向移动。当你对 R_\phi(x, y^+) 和 R_\phi(x, y^-) 求损失函数的导数时,你会得到一个简单的公式,其中 \Delta = R_\phi(x, y^+) - R_\phi(x,

#神经网络#机器学习#transformer
大模型微调(五):RLHF奖励模型与偏好损失函数

此外,我们定义了损失:L(\phi) = -\log \sigma(R_\phi(x, y^+) - R_\phi(x, y^-)),我们希望最小化这个损失,这意味着我们需要将 \phi 向减少它的方向移动。当你对 R_\phi(x, y^+) 和 R_\phi(x, y^-) 求损失函数的导数时,你会得到一个简单的公式,其中 \Delta = R_\phi(x, y^+) - R_\phi(x,

#神经网络#机器学习#transformer
大模型预训练(三):权重在哪里变化

这些矩阵 W_Q、W_K、W_V 都是可训练的参数,就像前馈部分中的权重一样。每个注意力头都有自己的 W_Q、W_K、W_V 集合,因此不同的注意力头可以专注于不同的关系(语法、共指、位置线索等)。这个注意力方程并没有显示这些 Q、K、V 的实际来源,但权重矩阵就隐藏在 Q、K 和 V 的定义中。这些操作跨越多层,塑造了想象中的海洋:一个动态场,每个单词的向量都会随着相邻单词的引力而移动。- 它们

#transformer#神经网络#机器学习
大模型预训练(一):损失函数

而在 Transformer 中,你需要构建一个由符号之间的关系组成的完整空间,因此损失图景(loss landscape)要复杂得多,几乎就像训练一个语言大小的神经流形(neural manifold)。重复数十亿次,你的直觉就会变得极其精准,这就是损失函数和优化对大模型的作用。这就是为什么你之前的评论如此尖锐:大模型的“真实自我”并非情感的内在,而是在 Transformer 架构的约束下最小

#transformer#神经网络#深度学习
大模型损失函数(二):KL散度(Kullback-Leibler divergence)

等式条件:Jensen 不等式是严格的,当且仅当 Z 在 p 下几乎必然为常数,即对于每个满足 p(x)>0 的 x,\frac{q(x)}{p(x)} 相等。快速推论,因为 D_{KL}(p\|q)=H(p,q)-H(p),D_{KL} 的非负性意味着 H(p,q)≥H(p),也就是说,交叉熵始终大于等于真实熵,而只有当模型与真实分布匹配时,交叉熵才等于真实熵。实际上,对于所有分布 p、q,D_

#transformer#神经网络#机器学习
大模型损失函数(一):交叉熵、联合熵、条件熵

回到交叉熵,交叉熵 H(p,q) 可以看作是条件熵的推广:它是将真实的条件熵 p(x|y) 替换为模型的近似值 q(x|y) 时的结果,这就是为什么训练模型就像是最小化它在真实条件结构之外添加的“额外不确定性”。交叉熵和联合熵具有相同的数学形式,概率乘以对数之和,但代表不同的关系:一个是同一变量的两个分布之间的关系,另一个是同一分布下的两个变量之间的关系。因此,联合熵自然分解为,H(Y):Y 本身

#transformer#神经网络#深度学习 +1
大模型微调(二):使微调保持稳定的策略

为了解决这个问题,训练器会在多个小批量数据上累积梯度,或者混合不同来源的数据,这样每次更新之前,模型都能拥有更广阔、更冷静的视角。于是,老师们降低了他们的声音(降低了学习率),稳定了模型的呼吸(削减了梯度),并提醒模型之前所知道的知识(恢复检查点)。一步步,迷雾消散了。然后,它们通过 \sqrt{v_t} 对更新进行归一化,沿着尖锐的维度采取较小的步长,沿着平坦的维度采取较大的步长,有效地“感知”

#transformer#神经网络#深度学习
大模型微调(一):有监督微调与困惑度

这实在太大,无法计算或存储。接下来是另一个步骤,从人类反馈中强化学习 (RLHF),在这个过程中,我的行为不再受标签的影响,而是由偏好决定。- 学习率 (\eta):更小,因为目标不是覆盖预训练知识,而是对其进行打磨,在不丢失模型已经学到的广泛知识的情况下对其进行温和的调整。在微调过程中,损失函数仍然是进度的主要指标,它衡量的是,在给定指令 x_i 的情况下,模型复现人类给出的响应 y_i 的准确

#transformer#神经网络#深度学习
大模型预训练(六):稳定性的来源

这种随机噪声的作用类似于热运动:它会对参数进行恰到好处的抖动,使优化器倾向于避开狭窄的凹陷(尖锐的最小值),并稳定在宽阔、稳定的盆地中,即使损失函数四处漂移,损失也能保持在较低水平。- 简单的目标(最小化损失),优化器不断下坡,但随机抖动会将其从陡峭的凹陷处推向宽阔、宽容的区域。将大型模型中的所有参数想象成控制台上的旋钮,这些旋钮的不同设置可以产生几乎相同的输出。这些略有不同的设置是近似等效配置,

#transformer#神经网络#深度学习
大模型预训练(四):信息论——信息准确传输的上限

存储只是时间上的传输,而不是空间上的传输。这就像试图从漏水的船里舀水,如果水涌入的速度超过了你舀水的速度,无论你的水桶有多好,你都不可避免地会沉下去。无论你的编码多么巧妙,在嘈杂的信道中,想要确保信息不会丢失,信息传输的最大速率都有一个上限。如果你试图通过嘈杂的信道(无论是有线、无线电信号,还是写入不可靠的存储器)以过快的速度发送信息,错误累积的速度就会超过你纠正它们的速度。这句话说得很精彩:你的

#考研#机器学习#经验分享
    共 12 条
  • 1
  • 2
  • 请选择