logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习-Chapter9-策略梯度

以前,策略是通过表格表示的:现在,策略可以通过参数化函数表示:π(a∣s,θ)π(a|s, θ)π(a∣s,θ),其中θ∈Rmθ ∈ ℝᵐθ∈Rm是一个参数向量。该函数可以是,例如,一个神经网络,其输入是s,输出是采取每个动作的概率,参数是θθθ。优势:当状态空间很大时,表格表示在存储和泛化方面效率低下。函数表示有时也写作π(a,s,θ)π(a, s, θ)π(a,s,θ)、πθ(a∣s)π_θ(

文章图片
#算法#机器学习#人工智能
强化学习-Chapter4-值迭代和策略迭代

根据收缩函数的性质,可以得到贝尔曼最优方程的求解方式:上式的可以任意取值,最终可以成功找到最优的策略,这个算法称为值迭代可以分成两步:步骤一:策略更新:解释:对于任意取值的,即初始化可以任取状态值,我们能算出每个状态下采用不同action得到的action value,即q(v,a),那么我们选取最大的q(v,a)对应的action,作为新的策略步骤二:值更新:解释:由步骤一得到的新策略,那么根据

文章图片
#算法#机器学习#人工智能
RAG论文阅读笔记

MMDocRAG 提供了一套覆盖“检索-证据筛选-图文交织生成”全过程的多模态 DocVQA 基准,为评估和推动多页、多模态文档理解与生成奠定了数据与指标基础;大量实验揭示当前模型仍难以稳定利用视觉证据并保持高质量引用,呼吁后续研究在检索精准度、跨模态融合、长文本稳健性等方向持续突破。

#论文阅读
一文搞懂PPO&TRPO&GRPO

ppo、trpo、grpo均属于actor-critic类算法。

文章图片
#算法#大数据#机器学习 +1
强化学习-Chapter4-值迭代和策略迭代

根据收缩函数的性质,可以得到贝尔曼最优方程的求解方式:上式的可以任意取值,最终可以成功找到最优的策略,这个算法称为值迭代可以分成两步:步骤一:策略更新:解释:对于任意取值的,即初始化可以任取状态值,我们能算出每个状态下采用不同action得到的action value,即q(v,a),那么我们选取最大的q(v,a)对应的action,作为新的策略步骤二:值更新:解释:由步骤一得到的新策略,那么根据

文章图片
#算法#机器学习#人工智能
到底了