SsR.XX 个人主页

@chacha_

SsR.XX

2024-05-16 15:24:41 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

直接偏好优化算法（Direct Preference Optimization，DPO）

基于**人类反馈的强化学习（RLHF）**是一个复杂且不稳定的过程，首先拟合一个反映人类偏好的奖励模型，然后使用强化学习对大语言模型进行微调，以最大限度地提高估计奖励，同时又不能偏离原始模型太远。这涉及训练多个 LM，并在训练循环中从 LM 采样，从而产生大量的计算成本。本文作者提出了**直接偏好优化（DPO）**算法，它稳定、高效且计算量轻，。实验表明，DPO 可以微调 LMs，使其与人类偏好保

#人工智能

到底了