xingxinbg 个人主页

@xingxinbg

xingxinbg

2023-03-29 16:24:36 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习】Sara算法

Sara算法在不知道环境模型（状态转移矩阵，奖励函数）下通过在线学习的方式（从而推导出最优策略。其实，他就相当于在无环境模型下的策略迭代算法。

#算法

【强化学习】PPO算法

TPO算法虽然应用起来效果很好，但是计算量很大。PPO算法对TPO算法的求解进行了优化，简化了求解方法，使用局部最优解代替全局最优解。

#算法

【Github(1)】windows安装及配置github

2. 打开终端( 快捷键win+R)，输入下面的命令配置github。在这里假设我在github上注册的用户名为user_name，邮箱为user_email。在下面的命令中根据自己注册的内容进行替换。注意在该文章的第四步中，需要勾选“(NEW!) Add a Git Bash Profile to Windows Terminal”1. 首先找到github网站，注册一个git的账号，记住你的账

#github

【强化学习】策略梯度算法

基于策略的方法则是存在一个显式的目标策略（使该策略下的动作价值函数期望最大），通过神经网络从每次和环境交互的数据中不断逼近该策略，即神经网络是对策略进行建模，输入是状态，输出是动作的概率分布。Q-learning、DQN都是基于动作价值函数的更新来推导最优策略的，即每次更新并不存在一个显示的策略，这个策略是随着Q值的更新而更新的，这是基于价值的方法。

#算法

【强化学习】DQN算法

但是在每次训练Q网络中，时序差分估算的Qtd值和Qw值同步更新，这会让Q网络不稳定。因此，DQN维护两个网络，一个网络用于计算Qw值，一个网络用于计算Qtd值。Qw网络每次训练值更新w参数不会更新Qtd值，每N次训练后都会从另一个网络（目标网络）复制Qtd值；，将每次从环境中采样得到的四元组数据（状态、动作、奖励、下一状态）存储到回放缓冲区中，训练 Q 网络的时候再从回放缓冲区中随机采样若干数据来

#算法

【强化学习】PPO算法

TPO算法虽然应用起来效果很好，但是计算量很大。PPO算法对TPO算法的求解进行了优化，简化了求解方法，使用局部最优解代替全局最优解。

#算法

【强化学习】DQN算法

#算法

【Github(1)】windows安装及配置github

#github

到底了