logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习第3章——动态规划

三、动态规划满足条件:最优子结构,重复子问题bellman递归方程可以用动态规划求解Vlaue function记录子问题的解Planning(规划):规划: 环境是已知或近似已知的,个体并不与环境发生实际的交互,而是利用其构建的模型进行计算,在此基础上改善其行为策略。MDP认为已知所有的环境信息,所以可以用动态规划。预测:求基于当前策略π的价值函数input: MDP and π\piπ​MRP

#动态规划#贪心算法#算法
强化学习第4章——不基于模型的预测(MC,TD)

四、不基于模型的预测在这种情况隙中,agent的组成只包含策略和奖励蒙特卡洛算法:蒙特卡罗是一类随机方法的统称。这类方法的特点是,可以在随机采样上计算得到近似结果,随着采样的增多,得到的结果是正确结果的概率逐渐加大,但在(放弃随机采样,而采用类似全采样这样的确定性方法)获得真正的结果之前,无法知道目前得到的结果是不是真正的结果。MC:Model-free:不需要知道状态转移概率和奖励MC通过大量完

#概率论
To Fill or Not to Fill(区间贪心)

To Fill or Not to Fill题目:With highways available, driving a car from Hangzhou to any other city is easy. But since the tank capacity of a car is limited, we have to find gas stations on the way from t

#贪心算法
到底了