iiiiii11 个人主页

@iiiiii11

iiiiii11

2024-06-25 20:19:56 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读笔记】多目标优化 + 强化学习（RL）：Envelope Q-Learning，在Q更新中使用凸包络提升多目标优化效率

【NeurIPS 2019】Envelope Q-Learning，在Q更新中使用凸包络提升多目标优化效率：该算法利用凸包思想，避免传统方法对每个偏好单独训练的不可扩展性问题，并提供了理论收敛性证明。同时，算法设计了偏好适应机制，仅需少量样本即可推断隐藏偏好并快速调整策略。实验在四个复杂任务（Deep Sea Treasure、Fruit Tree Navigation、对话系统和Super Ma

#论文阅读 #机器学习 #人工智能 +3

【论文阅读笔记】GlobeDiff：用扩散模型从局部观测生成全局状态，破解多智能体部分可观测难题

本文介绍了 GlobeDiff，一种基于条件扩散模型（Conditional Diffusion Model）的全局状态推断算法。它的核心思想是将状态推断建模为一个生成过程，通过引入潜在变量 z 来解决局部观测到全局状态的“一对多”映射歧义。理论证明和实验表明，GlobeDiff 不仅能准确推断全局状态，还能显著提升多智能体协作任务的性能。

#论文阅读 #机器学习

【论文阅读笔记】多智能体 + 均值方差优化 + 微电网

多智能体 + 均值方差优化 + 微电网

#论文阅读 #均值算法 #机器学习 +3

元强化学习经典方法：RL²、MAML-RL、MAESN、PEARL、VariBAD

本文将系统梳理2016-2020年间五个具有里程碑意义的元强化学习（Meta-RL）研究工作：RL²、MAML-RL、MAESN、PEARL和variBAD。这些工作共同解决的核心问题是：如何让智能体利用以往任务的经验，在新任务中通过极少的环境交互就能快速学习？

#机器学习 #人工智能 #pytorch +2

【论文阅读笔记】FOCAL 离线元强化学习，从静态数据中快速适应新任务

FOCAL（Fully-Offline Context-based Actor-critic meta-Learning）算法首次实现了无需任何在线交互的端到端元强化学习。它通过三个关键设计——确定性上下文编码器、负幂距离度量损失和解耦训练策略——让智能体仅从历史数据中就能学会"如何快速学习新任务"。在6个标准测试环境中，FOCAL相比现有方法样本效率提升显著，且能稳定收敛。

#论文阅读 #学习 #人工智能 +2

【论文阅读笔记-LLM】DPO - Direct Policy Optimization

Direct Preference Optimization (DPO)：发现语言模型本身可视为隐式的奖励模型。通过数学变换，将强化学习的约束优化问题转换为直接优化策略的分类问题。

#深度学习 #机器学习 #人工智能 +2

【论文阅读笔记】大模型多轮对话综述：Beyond single-turn A survey on multi-turn interactions with large language models

单轮交互模式极大地限制了LLMs能力的发挥，因为它忽略了对话中最关键的要素：历史上下文。本文综述了多轮交互任务及方法。

#论文阅读 #语言模型 #人工智能 +2

【论文阅读笔记】多目标优化 + 强化学习（RL）：Envelope Q-Learning，在Q更新中使用凸包络提升多目标优化效率

#论文阅读 #机器学习 #人工智能 +3

【论文阅读笔记-meta rl】Meta-Q-Learning (MQL)：Q-learning + 元强化学习

这篇文章提出了 Meta-Q-Learning (MQL)，一个基于Q-learning的离策略（off-policy）元强化学习算法。它的核心发现令人意外：在现有meta-RL基准测试中，普通的TD3算法只要加上一个"上下文变量"（context variable）来表征历史轨迹，就能与MAML、PEARL等复杂的元学习算法平起平坐。基于这一发现，MQL进一步利用倾向得分估计（propensit

#论文阅读 #机器学习 #深度学习 +2

【论文阅读笔记-meta rl】SiMPL：技能驱动的元强化学习

这篇文章提出了一种名为 SiMPL（Skill-based Meta-Policy Learning）的算法，首次将元强化学习（Meta-RL）与大规模无标注离线数据结合，解决了长时程、稀疏奖励任务的快速适应难题。传统强化学习需要数百万次环境交互才能学会复杂行为，而SiMPL通过三阶段流程实现了数量级的效率提升。

#论文阅读 #机器人 #机器学习 +2

共 13 条

请选择