
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
RLHF->DPO->GRPO
在大模型(LLM)的演进过程中,**对齐(Alignment)**是让模型从“乱说话的概率预测器”变成“听话的智能助手”的关键。对齐的核心目标是使模型的输出符合人类的价值观、意图和偏好(即 Helpful, Honest, Harmless)。从早期的 RLHF 到如今大火的 GRPO,技术路线经历从“复杂昂贵”到“极简高效”的剧烈变革。
到底了







