
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【论文阅读笔记】多目标优化 + 强化学习(RL):Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率
【NeurIPS 2019】Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率:该算法利用凸包思想,避免传统方法对每个偏好单独训练的不可扩展性问题,并提供了理论收敛性证明。同时,算法设计了偏好适应机制,仅需少量样本即可推断隐藏偏好并快速调整策略。实验在四个复杂任务(Deep Sea Treasure、Fruit Tree Navigation、对话系统和Super Ma
【论文阅读笔记-LLM】DPO - Direct Policy Optimization
Direct Preference Optimization (DPO):发现语言模型本身可视为隐式的奖励模型。通过数学变换,将强化学习的约束优化问题转换为直接优化策略的分类问题。

到底了