努力学习的豪个人主页

@qq_43303928

努力学习的豪

2026-03-06 10:29:24 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

RLHF-＞DPO-＞GRPO

在大模型（LLM）的演进过程中，**对齐（Alignment）**是让模型从“乱说话的概率预测器”变成“听话的智能助手”的关键。对齐的核心目标是使模型的输出符合人类的价值观、意图和偏好（即 Helpful, Honest, Harmless）。从早期的 RLHF 到如今大火的 GRPO，技术路线经历从“复杂昂贵”到“极简高效”的剧烈变革。

#人工智能 #机器学习 #算法

到底了