logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

直接偏好优化算法(Direct Preference Optimization,DPO)

基于**人类反馈的强化学习(RLHF)**是一个复杂且不稳定的过程,首先拟合一个反映人类偏好的奖励模型,然后使用强化学习对大语言模型进行微调,以最大限度地提高估计奖励,同时又不能偏离原始模型太远。这涉及训练多个 LM,并在训练循环中从 LM 采样,从而产生大量的计算成本。本文作者提出了**直接偏好优化(DPO)**算法,它稳定、高效且计算量轻,。实验表明,DPO 可以微调 LMs,使其与人类偏好保

文章图片
#人工智能
到底了