logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习】信任区域策略优化(Trust Region Policy Optimization,TRPO)

摘要:本文介绍了信任区域策略优化(TRPO)算法,针对策略梯度法(PG)存在的数据利用率低、更新幅度不可控等问题进行了改进。TRPO通过引入信任区域概念,在优化目标中加入KL散度约束,确保新策略不会偏离旧策略太远。其核心在于使用重要性采样修正策略分布偏差,允许对同一批数据进行多次小批量更新,提高样本利用率。相比PG,TRPO能实现更稳定的策略优化和性能提升,为后续PPO算法的提出奠定了基础。

#AI
【强化学习】蒙特卡洛(Monte Carlo)方法

蒙特卡洛采样(Monte Carlo Sampling)是一种通过多次随机采样来近似计算 “难以直接求解的期望或积分” 的方法。其核心思想是:对于一个随机变量的期望(如强化学习中的累积回报期望),如果无法通过数学公式直接计算,就通过大量随机采样的结果来近似计算期望。

#概率论#机器学习#人工智能
【强化学习】基于策略的强化学习算法——策略梯度法

本文介绍了基于策略的强化学习方法中的策略梯度法(PG)。与基于值函数的方法不同,PG直接优化参数化策略πθ(a|s),通过梯度上升最大化期望累积奖励J(θ)。策略梯度定理表明,J(θ)的梯度可表示为轨迹回报与动作对数概率梯度的乘积期望。PG使用时采用蒙特卡洛采样估计梯度:当轨迹回报为正时增加对应动作概率,为负时降低概率。这种方法避免了基于值函数的间接优化,直接调整策略参数使高回报动作更可能被选择。

#算法#人工智能#AI
【强化学习】 REINFORCE 算法

摘要:REINFORCE算法改进了策略梯度法,通过使用"rewards to go"($G_t$)替代总回报$G(\tau)$,只考虑当前及未来奖励。为进一步降低方差,算法引入基线(baseline),即状态价值函数$V^\pi(s)$,通过优势函数$A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)$评估动作相对优势。带基线的REINFORCE通过$G_t-b(s_

#算法#人工智能#AI
【强化学习】 Actor-Critic(AC)方法

Actor-Critic 方法基于值函数 (Value-based) 和基于策略 (Policy-based) 方法的优点,核心思想是:**利用 Critic 网络来评估当前策略的好坏,然后 Actor 网络根据 Critic 的评估结果来更新策略**。

#人工智能#AI
【强化学习】优势函数与广义优势估计

摘要: 优势函数$A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)$衡量动作$a$在状态$s$下优于平均策略的程度。为简化计算,通常用TD误差$\delta_t=r_t+\gamma V^\pi(s_{t+1})-V^\pi(s_t)$近似优势函数。广义优势估计(GAE)通过参数$\lambda$平衡偏差与方差,融合多步TD残差:$A_t=\sum_{k=0}^T (\gamma\la

#算法#人工智能#AI
【AI知识】深度学习中模型参数初始化方法介绍

【AI知识】深度学习中模型参数初始化方法介绍: 零初始化,随机初始化, Xavier初始化,He初始化

文章图片
#人工智能#深度学习
【强化学习】同策略学习(On-Policy )与异策略学习(Off-Policy )

摘要: 强化学习中的策略优化分为同策略(On-Policy)和异策略(Off-Policy)两类。同策略(如SARSA、PPO)直接通过目标策略与环境交互采集数据,样本分布一致但利用率低;异策略(如Q-Learning、DQN)则通过行为策略采集数据供目标策略学习,支持数据复用和离线训练,但需重要性采样解决分布偏差问题。前者训练稳定但效率低,后者样本利用率高但需处理分布差异。典型算法的选择取决于任

#AI#人工智能
【强化学习】重要性采样

重要性采样(Importance Sampling)是一种**利用从一个分布中采样得到的数据来估计另一个分布的期望值**的方法,在蒙特卡洛方法中是一种常用的技巧,用于提高估计的效率和准确性。这种方法适用于目标分布难以直接采样,或者直接采样效率较低的情况。在强化学习中主要用于解决**异策略(Off-policy)学习**

#机器学习#AI#人工智能
【强化学习】PPO(Proximal Policy Optimization,近端策略优化)

PPO(近端策略优化)是OpenAI提出的强化学习算法,作为TRPO的简化版本,旨在解决传统策略梯度方法中更新过大导致性能崩坏的问题。PPO通过限制策略更新幅度实现稳定训练,主要有两种实现方式:PPO-Clip(通过裁剪机制限制更新幅度)和PPO-Penalty(通过KL散度约束限制更新)。PPO-Clip的核心包括近端比率裁剪损失和价值函数损失,前者通过限制策略更新幅度确保稳定性,后者用于优化策

#人工智能#AI
    共 46 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择