
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
多智能体 + 均值方差优化 + 微电网

本文将系统梳理2016-2020年间五个具有里程碑意义的元强化学习(Meta-RL)研究工作:RL²、MAML-RL、MAESN、PEARL和variBAD。这些工作共同解决的核心问题是:如何让智能体利用以往任务的经验,在新任务中通过极少的环境交互就能快速学习?
FOCAL(Fully-Offline Context-based Actor-critic meta-Learning)算法首次实现了无需任何在线交互的端到端元强化学习。它通过三个关键设计——确定性上下文编码器、负幂距离度量损失和解耦训练策略——让智能体仅从历史数据中就能学会"如何快速学习新任务"。在6个标准测试环境中,FOCAL相比现有方法样本效率提升显著,且能稳定收敛。
Direct Preference Optimization (DPO):发现语言模型本身可视为隐式的奖励模型。通过数学变换,将强化学习的约束优化问题转换为直接优化策略的分类问题。

单轮交互模式极大地限制了LLMs能力的发挥,因为它忽略了对话中最关键的要素:历史上下文。本文综述了多轮交互任务及方法。
【NeurIPS 2019】Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率:该算法利用凸包思想,避免传统方法对每个偏好单独训练的不可扩展性问题,并提供了理论收敛性证明。同时,算法设计了偏好适应机制,仅需少量样本即可推断隐藏偏好并快速调整策略。实验在四个复杂任务(Deep Sea Treasure、Fruit Tree Navigation、对话系统和Super Ma
这篇文章提出了 Meta-Q-Learning (MQL),一个基于Q-learning的离策略(off-policy)元强化学习算法。它的核心发现令人意外:在现有meta-RL基准测试中,普通的TD3算法只要加上一个"上下文变量"(context variable)来表征历史轨迹,就能与MAML、PEARL等复杂的元学习算法平起平坐。基于这一发现,MQL进一步利用倾向得分估计(propensit
这篇文章提出了一种名为 SiMPL(Skill-based Meta-Policy Learning)的算法,首次将元强化学习(Meta-RL)与大规模无标注离线数据结合,解决了长时程、稀疏奖励任务的快速适应难题。传统强化学习需要数百万次环境交互才能学会复杂行为,而SiMPL通过三阶段流程实现了数量级的效率提升。
本文将系统梳理2016-2020年间五个具有里程碑意义的元强化学习(Meta-RL)研究工作:RL²、MAML-RL、MAESN、PEARL和variBAD。这些工作共同解决的核心问题是:如何让智能体利用以往任务的经验,在新任务中通过极少的环境交互就能快速学习?
FOCAL(Fully-Offline Context-based Actor-critic meta-Learning)算法首次实现了无需任何在线交互的端到端元强化学习。它通过三个关键设计——确定性上下文编码器、负幂距离度量损失和解耦训练策略——让智能体仅从历史数据中就能学会"如何快速学习新任务"。在6个标准测试环境中,FOCAL相比现有方法样本效率提升显著,且能稳定收敛。








