StarMelt 个人主页

@m0_72557046

StarMelt

2023-04-21 23:44:09 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U3：蒙特卡罗学习

这篇博客主要介绍一种Model-free的Indirect RL方法——Monte Carlo Learning。这里的Model-free指的是Monte Carlo Learning不需要环境的模型，而是通过和环境的交互来学习。Indirect RL指的是Monte Carlo Learning不直接优化策略，而是通过求解Bellman方程来学习策略。

#深度学习 #人工智能

清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U2：强化学习基本概念

强化学习基本概念。

#人工智能 #深度学习

清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U5：动态规划（二）

原书第五单元DP（动态规划）部分。本部分因为内容太多，因此分成几部分发布。这是第二部分。

#动态规划 #算法

清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U1：强化学习入门

本单元作为Reinforcement Learning for Sequential Decision and Optimal Control这本书第一单元的读书笔记，算是一个入门的笔记。介绍了强化学习的历史渊源和面临的挑战。这个单元的内容以介绍性的为主，因此就简单写写。

#深度学习 #人工智能

LeCun认为MPC比强化学习更好？一篇文章对比MPC与强化学习

本文从技术角度详细分析了LeCun关于近日发表的“相比于强化学习（RL），我确实更喜欢模型预测控制（MPC）。”的说法，就MPC与强化学习哪个更好提出了自己的看法。笔者认为，MPC与强化学习各有优劣。但是，在方法的灵活性、可扩展性等方面强于MPC，更适合用于解决实际情景中的复杂任务。

#深度学习 #人工智能

清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U8近似动态规划ADP 二

对应于原书第八单元Approximate Dynamic Programming，主要讲述了近似动态规划算法（ADP）。本次文章分两次发布。

#动态规划 #算法 #深度学习 +1

清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U10深度强化学习

本篇博客对应于原书的第十单元，重点讲述了深度强化学习（Deep Reinforcement Learning，DRL）的基础知识。深度强化学习时神经网络与强化学习的结合，需要进行大量的交互并消耗巨量的计算资源。在早期因为硬件计算资源的限制，并未受到太多重视。但是近些年来随着计算能力的不断提高，将深度学习与强化学习结合的研究取得了巨大的进展。AlphaGo及其后继者不断战胜人类顶尖高手标志着人工智能

#人工智能 #算法 #深度学习 +1

清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U9RL中的约束与安全一

对应于原书第九单元State Constraints and Safety Consideration,主要讲述了强化学习中的约束和安全考量。本次文章分三次发布。这是第一篇。

#人工智能 #算法

超越GRPO！解密最新大模型强化学习领域的SOTA算法:STAPO

清华大学与滴滴实验室联合提出STAPO算法，解决大模型强化学习训练中的策略熵失稳问题。该算法通过词元级分析，定义"虚假词元"概念，并开发S2T机制剔除有害梯度。在六个数学推理基准测试中，STAPO超越GRPO等现有算法，性能提升3.69%-7.13%，同时保持更稳定的训练过程。研究为基于词元的大模型训练提供了新思路，相关成果已发表于arXiv。

#算法

LeCun认为MPC比强化学习更好？一篇文章对比MPC与强化学习

#深度学习 #人工智能

共 23 条

请选择