logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读笔记】多目标优化 + 强化学习(RL):Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率

【NeurIPS 2019】Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率:该算法利用凸包思想,避免传统方法对每个偏好单独训练的不可扩展性问题,并提供了理论收敛性证明。同时,算法设计了偏好适应机制,仅需少量样本即可推断隐藏偏好并快速调整策略。实验在四个复杂任务(Deep Sea Treasure、Fruit Tree Navigation、对话系统和Super Ma

#论文阅读#机器学习#人工智能 +3
【论文阅读笔记】GlobeDiff:用扩散模型从局部观测生成全局状态,破解多智能体部分可观测难题

本文介绍了 GlobeDiff,一种基于条件扩散模型(Conditional Diffusion Model)的全局状态推断算法。它的核心思想是将状态推断建模为一个生成过程,通过引入潜在变量 z 来解决局部观测到全局状态的“一对多”映射歧义。理论证明和实验表明,GlobeDiff 不仅能准确推断全局状态,还能显著提升多智能体协作任务的性能。

#论文阅读#机器学习
元强化学习经典方法:RL²、MAML-RL、MAESN、PEARL、VariBAD

本文将系统梳理2016-2020年间五个具有里程碑意义的元强化学习(Meta-RL)研究工作:RL²、MAML-RL、MAESN、PEARL和variBAD。这些工作共同解决的核心问题是:如何让智能体利用以往任务的经验,在新任务中通过极少的环境交互就能快速学习?

#机器学习#人工智能#pytorch +2
【论文阅读笔记】FOCAL 离线元强化学习,从静态数据中快速适应新任务

FOCAL(Fully-Offline Context-based Actor-critic meta-Learning)算法首次实现了无需任何在线交互的端到端元强化学习。它通过三个关键设计——确定性上下文编码器、负幂距离度量损失和解耦训练策略——让智能体仅从历史数据中就能学会"如何快速学习新任务"。在6个标准测试环境中,FOCAL相比现有方法样本效率提升显著,且能稳定收敛。

#论文阅读#学习#人工智能 +2
【论文阅读笔记-LLM】DPO - Direct Policy Optimization

Direct Preference Optimization (DPO):发现语言模型本身可视为隐式的奖励模型。通过数学变换,将强化学习的约束优化问题转换为直接优化策略的分类问题。

文章图片
#深度学习#机器学习#人工智能 +2
【论文阅读笔记】大模型多轮对话综述:Beyond single-turn A survey on multi-turn interactions with large language models

单轮交互模式极大地限制了LLMs能力的发挥,因为它忽略了对话中最关键的要素:历史上下文。本文综述了多轮交互任务及方法。

#论文阅读#语言模型#人工智能 +2
【论文阅读笔记】多目标优化 + 强化学习(RL):Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率

【NeurIPS 2019】Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率:该算法利用凸包思想,避免传统方法对每个偏好单独训练的不可扩展性问题,并提供了理论收敛性证明。同时,算法设计了偏好适应机制,仅需少量样本即可推断隐藏偏好并快速调整策略。实验在四个复杂任务(Deep Sea Treasure、Fruit Tree Navigation、对话系统和Super Ma

#论文阅读#机器学习#人工智能 +3
【论文阅读笔记-meta rl】Meta-Q-Learning (MQL):Q-learning + 元强化学习

这篇文章提出了 Meta-Q-Learning (MQL),一个基于Q-learning的离策略(off-policy)元强化学习算法。它的核心发现令人意外:在现有meta-RL基准测试中,普通的TD3算法只要加上一个"上下文变量"(context variable)来表征历史轨迹,就能与MAML、PEARL等复杂的元学习算法平起平坐。基于这一发现,MQL进一步利用倾向得分估计(propensit

#论文阅读#机器学习#深度学习 +2
【论文阅读笔记-meta rl】SiMPL:技能驱动的元强化学习

这篇文章提出了一种名为 SiMPL(Skill-based Meta-Policy Learning)的算法,首次将元强化学习(Meta-RL)与大规模无标注离线数据结合,解决了长时程、稀疏奖励任务的快速适应难题。传统强化学习需要数百万次环境交互才能学会复杂行为,而SiMPL通过三阶段流程实现了数量级的效率提升。

#论文阅读#机器人#机器学习 +2
    共 13 条
  • 1
  • 2
  • 请选择