我不是小哥哥个人主页

@m0_48941999

我不是小哥哥

2023-04-19 10:44:07 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习第3章——动态规划

三、动态规划满足条件：最优子结构，重复子问题bellman递归方程可以用动态规划求解Vlaue function记录子问题的解Planning（规划）:规划: 环境是已知或近似已知的，个体并不与环境发生实际的交互，而是利用其构建的模型进行计算，在此基础上改善其行为策略。MDP认为已知所有的环境信息，所以可以用动态规划。预测：求基于当前策略π的价值函数input: MDP and π\piπMRP

#动态规划 #贪心算法 #算法

强化学习第4章——不基于模型的预测(MC,TD)

四、不基于模型的预测在这种情况隙中，agent的组成只包含策略和奖励蒙特卡洛算法：蒙特卡罗是一类随机方法的统称。这类方法的特点是，可以在随机采样上计算得到近似结果，随着采样的增多，得到的结果是正确结果的概率逐渐加大，但在（放弃随机采样，而采用类似全采样这样的确定性方法）获得真正的结果之前，无法知道目前得到的结果是不是真正的结果。MC:Model-free：不需要知道状态转移概率和奖励MC通过大量完

#概率论

To Fill or Not to Fill(区间贪心)

To Fill or Not to Fill题目：With highways available, driving a car from Hangzhou to any other city is easy. But since the tank capacity of a car is limited, we have to find gas stations on the way from t

#贪心算法

到底了