logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度强化学习基础:策略学习

深度强化学习基础:策略学习王树森深度强化学习基础:策略学习No.1 Policy Network当有无数个状态和无数个动作时,不可能将每一个状态和动作概率记录在一张表里,这样就无法直接算策略函数,所以得做函数近似,寻出来一个函数来近似策略函数。当用神经网络近似时,…No.2 Policy-Based Reinforcement Learning 策略学习策略学习的目标:改进θ,使J(θ)越大越好。

#深度学习
深度强化学习的基本概念

Terminology(术语)in RL王树森的B站强化学习视频No.1 stateand action状态和动作state:状态,action:动作,Agent(智能体):动作的发起者.No.2 policy策略记为π函数policy:根据观测到的状态做出的决策来控制agent运动数学上,policy的π函数定义为概率密度函数。policy function π:(s,a)➡[0,1]: π(a

#深度学习
深度强化学习基础:价值学习

强化学习基础:价值学习王树森深度强化学习基础:价值学习No.1 Deep Q-Network (DQN)DQN 是一个价值学习的方法,用一个神经网络去近似Q*函数。DQN 的输入是s,w为神经网络的参数,输出是对每一个动作a的打分。怎么训练DQN呢? 最常用的是TD算法。No.2 Temporal Difference (TD) LearningTD算法即使不完成旅程,也能更新参数。No.3 TD

#深度学习
深度强化学习基础:策略学习

深度强化学习基础:策略学习王树森深度强化学习基础:策略学习No.1 Policy Network当有无数个状态和无数个动作时,不可能将每一个状态和动作概率记录在一张表里,这样就无法直接算策略函数,所以得做函数近似,寻出来一个函数来近似策略函数。当用神经网络近似时,…No.2 Policy-Based Reinforcement Learning 策略学习策略学习的目标:改进θ,使J(θ)越大越好。

#深度学习
算法设计与分析(整理)

2021年春-算法课我与作业题库的爱恨情仇我可没记住这个简朴的提交网站:http://47.99.179.148/有一个很蠢的坦白,我以为这个简陋的网站,提交时不会允许我们用algorithm库,所有排序我都复制一遍快排,所以当我发现可以用时,之前的冗长代码也没有继续管他,所以看上去比较蠢。这题我愣是记住了它的题号1007,我还长江七号呢,也可能是自己傻里巴巴的,longlong可以解决的,还以为

#算法#动态规划#贪心算法
到底了