Rsbs 个人主页

@Rsbstep

Rsbs

2022-12-14 13:42:36 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习-决策树

决策树是一种。

#机器学习 #决策树 #人工智能

强化学习-Chapter9-策略梯度

以前，策略是通过表格表示的：现在，策略可以通过参数化函数表示：π(a∣s,θ)π(a|s, θ)π(a∣s,θ)，其中θ∈Rmθ ∈ ℝᵐθ∈Rm是一个参数向量。该函数可以是，例如，一个神经网络，其输入是s，输出是采取每个动作的概率，参数是θθθ。优势：当状态空间很大时，表格表示在存储和泛化方面效率低下。函数表示有时也写作π(a,s,θ)π(a, s, θ)π(a,s,θ)、πθ(a∣s)π_θ(

#算法 #机器学习 #人工智能

强化学习-Chapter4-值迭代和策略迭代

根据收缩函数的性质，可以得到贝尔曼最优方程的求解方式：上式的可以任意取值，最终可以成功找到最优的策略，这个算法称为值迭代可以分成两步：步骤一：策略更新：解释：对于任意取值的，即初始化可以任取状态值，我们能算出每个状态下采用不同action得到的action value，即q(v,a)，那么我们选取最大的q(v,a)对应的action，作为新的策略步骤二：值更新：解释：由步骤一得到的新策略，那么根据

#算法 #机器学习 #人工智能

强化学习算法实战：一个例子搞懂sarsa、dqn、ddqn、qac、a2c及其区别

一个例子搞懂强化学习算法

#算法 #人工智能 #机器学习 +1

RAG论文阅读笔记

MMDocRAG 提供了一套覆盖“检索-证据筛选-图文交织生成”全过程的多模态 DocVQA 基准，为评估和推动多页、多模态文档理解与生成奠定了数据与指标基础；大量实验揭示当前模型仍难以稳定利用视觉证据并保持高质量引用，呼吁后续研究在检索精准度、跨模态融合、长文本稳健性等方向持续突破。

#论文阅读

强化学习-Chapter4-值迭代和策略迭代

#算法 #机器学习 #人工智能

强化学习算法实战：一个例子搞懂sarsa、dqn、ddqn、qac、a2c及其区别

一个例子搞懂强化学习算法

#算法 #人工智能 #机器学习 +1

到底了