logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

元强化学习经典方法:RL²、MAML-RL、MAESN、PEARL、VariBAD

本文将系统梳理2016-2020年间五个具有里程碑意义的元强化学习(Meta-RL)研究工作:RL²、MAML-RL、MAESN、PEARL和variBAD。这些工作共同解决的核心问题是:如何让智能体利用以往任务的经验,在新任务中通过极少的环境交互就能快速学习?

#机器学习#人工智能#pytorch +2
【论文阅读笔记】FOCAL 离线元强化学习,从静态数据中快速适应新任务

FOCAL(Fully-Offline Context-based Actor-critic meta-Learning)算法首次实现了无需任何在线交互的端到端元强化学习。它通过三个关键设计——确定性上下文编码器、负幂距离度量损失和解耦训练策略——让智能体仅从历史数据中就能学会"如何快速学习新任务"。在6个标准测试环境中,FOCAL相比现有方法样本效率提升显著,且能稳定收敛。

#论文阅读#学习#人工智能 +2
【论文阅读笔记-LLM】DPO - Direct Policy Optimization

Direct Preference Optimization (DPO):发现语言模型本身可视为隐式的奖励模型。通过数学变换,将强化学习的约束优化问题转换为直接优化策略的分类问题。

文章图片
#深度学习#机器学习#人工智能 +2
【论文阅读笔记】大模型多轮对话综述:Beyond single-turn A survey on multi-turn interactions with large language models

单轮交互模式极大地限制了LLMs能力的发挥,因为它忽略了对话中最关键的要素:历史上下文。本文综述了多轮交互任务及方法。

#论文阅读#语言模型#人工智能 +2
【论文阅读笔记】多目标优化 + 强化学习(RL):Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率

【NeurIPS 2019】Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率:该算法利用凸包思想,避免传统方法对每个偏好单独训练的不可扩展性问题,并提供了理论收敛性证明。同时,算法设计了偏好适应机制,仅需少量样本即可推断隐藏偏好并快速调整策略。实验在四个复杂任务(Deep Sea Treasure、Fruit Tree Navigation、对话系统和Super Ma

#论文阅读#机器学习#人工智能 +3
【论文阅读笔记-meta rl】Meta-Q-Learning (MQL):Q-learning + 元强化学习

这篇文章提出了 Meta-Q-Learning (MQL),一个基于Q-learning的离策略(off-policy)元强化学习算法。它的核心发现令人意外:在现有meta-RL基准测试中,普通的TD3算法只要加上一个"上下文变量"(context variable)来表征历史轨迹,就能与MAML、PEARL等复杂的元学习算法平起平坐。基于这一发现,MQL进一步利用倾向得分估计(propensit

#论文阅读#机器学习#深度学习 +2
【论文阅读笔记-meta rl】SiMPL:技能驱动的元强化学习

这篇文章提出了一种名为 SiMPL(Skill-based Meta-Policy Learning)的算法,首次将元强化学习(Meta-RL)与大规模无标注离线数据结合,解决了长时程、稀疏奖励任务的快速适应难题。传统强化学习需要数百万次环境交互才能学会复杂行为,而SiMPL通过三阶段流程实现了数量级的效率提升。

#论文阅读#机器人#机器学习 +2
元强化学习经典方法:RL²、MAML-RL、MAESN、PEARL、VariBAD

本文将系统梳理2016-2020年间五个具有里程碑意义的元强化学习(Meta-RL)研究工作:RL²、MAML-RL、MAESN、PEARL和variBAD。这些工作共同解决的核心问题是:如何让智能体利用以往任务的经验,在新任务中通过极少的环境交互就能快速学习?

#机器学习#人工智能#pytorch +2
【论文阅读笔记】FOCAL 离线元强化学习,从静态数据中快速适应新任务

FOCAL(Fully-Offline Context-based Actor-critic meta-Learning)算法首次实现了无需任何在线交互的端到端元强化学习。它通过三个关键设计——确定性上下文编码器、负幂距离度量损失和解耦训练策略——让智能体仅从历史数据中就能学会"如何快速学习新任务"。在6个标准测试环境中,FOCAL相比现有方法样本效率提升显著,且能稳定收敛。

#论文阅读#学习#人工智能 +2
    共 12 条
  • 1
  • 2
  • 请选择