机器学习6-强化学习

师兄博客原文地址https://blog.csdn.net/LogHouse/article/details/96434429从零开始的机器学习6-强化学习一些问题智能控制与优化决策课题组制作。对应周志华《机器学习》第十六章内容。一些问题1、分析强化学习与监督学习的联系与差别。监督学习就是有导师学习，所学习的样例是有标签的。强化学习是无导师学习。但实际上，强化学习有一位隐形的导师，这个导师会告诉你

中南自动化学院“智能控制与优化决策“至渝

24970人浏览 · 2020-08-12 10:02:11

中南自动化学院“智能控制与优化决策“至渝 · 2020-08-12 10:02:11 发布

师兄博客原文地址 https://blog.csdn.net/LogHouse/article/details/96434429

从零开始的机器学习6-强化学习

一些问题

智能控制与优化决策课题组制作。
对应周志华《机器学习》第十六章内容。

一些问题

1、分析强化学习与监督学习的联系与差别。

监督学习就是有导师学习，所学习的样例是有标签的。
强化学习是无导师学习。但实际上，强化学习有一位隐形的导师，这个导师会告诉你所获得的奖赏，这些奖赏其实也是一种标签，不过这种标签需要通过学习得到。

2、

\varepsilon

-贪心法如何实现探索与利用的平衡。

探索指对未知的部分进行尝试和认知，尝试找到较当前最优解更优的解；
利用指使用已知部分的信息，保证解较优。

\varepsilon

贪心法是一种平衡探索与利用的方法，以ϵ

\varepsilon

的概率进行探索，以

\varepsilon-1

的概率进行利用，通常令

\varepsilon

取一个较小的常数，也就是说，以大概率利用，小概率探索。不过，如果你去餐馆的次数足够多了，几乎所有餐馆你都去过了，那里就可以放心的去你现在发现最好吃的餐馆了，所以，探索的概率逐渐减小也是个不错的选择。

3、如何用赌博机算法实现强化学习任务。

在玩K-摇臂赌博机时，赌徒在投入一个硬币后可选择按下其中一个摇臂，每个摇臂以一定的概率吐出硬币，但这个概率赌徒并不知道，那要如何最大化自己的奖赏呢。最大化奖赏需要做两件事：1）尽可能准确的知道每个摇臂平均奖赏；2）尽可能多的利用平均奖赏最多的那个摇臂。
对于第一件事，需要的是多次尝试，观察记录摇臂按下的次数和获得的奖赏，计算每个摇臂的平均奖赏；对于第二件事，就是尽可能选择平均奖赏多的摇臂。
将赌博机算法用于每个状态，对每个状态分别记录个动作的尝试次数、当前平均累积奖赏等信息，然后基于