师兄博客原文地址 https://blog.csdn.net/LogHouse/article/details/96434429

从零开始的机器学习6-强化学习


智能控制与优化决策课题组制作。
对应周志华《机器学习》第十六章内容。

一些问题

1、分析强化学习与监督学习的联系与差别。
监督学习就是有导师学习,所学习的样例是有标签的。
强化学习是无导师学习。但实际上,强化学习有一位隐形的 导师,这个导师会告诉你所获得的 奖赏,这些奖赏其实也是一种标签,不过这种标签需要通过学习得到。
2、 ε \varepsilon ε-贪心法如何实现探索与利用的平衡。
探索指对未知的部分进行尝试和认知,尝试找到较当前最优解更优的解;
利用指使用已知部分的信息,保证解较优。
ε \varepsilon ε贪心法是一种平衡探索与利用的方法,以ϵ ε \varepsilon ε的概率进行探索,以 ε − 1 \varepsilon-1 ε1的概率进行利用,通常令 ε \varepsilon ε取一个较小的常数,也就是说,以大概率利用,小概率探索。不过,如果你去餐馆的次数足够多了,几乎所有餐馆你都去过了,那里就可以放心的去你现在发现最好吃的餐馆了,所以,探索的概率逐渐减小也是个不错的选择。
3、如何用赌博机算法实现强化学习任务。
在玩K-摇臂赌博机时,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道,那要如何最大化自己的奖赏呢。最大化奖赏需要做两件事:1)尽可能准确的知道每个摇臂平均奖赏;2)尽可能多的利用平均奖赏最多的那个摇臂。
对于第一件事,需要的是多次尝试,观察记录摇臂按下的次数和获得的奖赏,计算每个摇臂的平均奖赏;对于第二件事,就是尽可能选择平均奖赏多的摇臂。
将赌博机算法用于每个状态,对每个状态分别记录个动作的尝试次数、当前平均累积奖赏等信息,然后基于 ε \varepsilon ε-贪心算法之类的方法选择下一步的动作。
4、试推导 γ \gamma γ折扣累积奖赏的全概率展开式(16.8)。
V γ π = E π [ ∑ t = 0 ∞ γ t r t + 1 ∣ x 0 = x ] = E π [ r 1 + ∑ t = 1 ∞ γ t r t + 1 ∣ x 0 = x ] = E π [ r 1 + γ ∑ t = 1 ∞ γ t − 1 r t + 1 ∣ x 0 = x ] = ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ X P x → x ′ a ( R x → x ′ a + γ E π [ ∑ t = 0 ∞ γ t r t + 1 ∣ x 0 = x ′ ] ) = ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ X P x → x ′ a ( R x → x ′ a + γ V γ π ( x ′ ) ) \begin{aligned} V^\pi_\gamma&=\mathbb{E}_\pi[\sum^\infin_{t=0} \gamma^tr_{t+1}|x_0=x]\\ &=\mathbb{E}_\pi[r_1+\sum^\infin_{t=1}\gamma^tr_{t+1}|x_0=x]\\ &=\mathbb{E}_\pi[r_1+\gamma\sum^\infin_{t=1}\gamma^{t-1}r_{t+1}|x_0=x]\\ &=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P^a_{x\rightarrow x'} (R^a_{x\rightarrow x'}+\gamma\mathbb{E}_\pi [\sum^\infin_{t=0}\gamma^tr_{t+1}|x_0=x'])\\ &=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P^a_{x\rightarrow x'} (R^a_{x\rightarrow x'}+\gamma V^\pi_\gamma(x')) \end{aligned} Vγπ=Eπ[t=0γtrt+1x0=x]=Eπ[r1+t=1γtrt+1x0=x]=Eπ[r1+γt=1γt1rt+1x0=x]=aAπ(x,a)xXPxxa(Rxxa+γEπ[t=0γtrt+1x0=x])=aAπ(x,a)xXPxxa(Rxxa+γVγπ(x))
其中, π ( x , a ) \pi(x,a) π(x,a)表示在 x x x状态下执行动作 a a a的概率; P x → x ′ a P^a_{x\rightarrow x'} Pxxa表示执行动作 a a a之后转移到状态 x ′ x' x的概率; R x → x ′ a + γ V γ π ( x ′ ) R^a_{x\rightarrow x'}+\gamma V^\pi_\gamma(x') Rxxa+γVγπ(x)表示到达状态 x ′ x' x所能获得的奖赏,其中 R x → x ′ a R^a_{x\rightarrow x'} Rxxa为即时奖赏, γ V γ π ( x ′ ) \gamma V^\pi_\gamma(x') γVγπ(x)为未来奖赏的估计。
5、什么是动态规划中的最优性原理,与强化学习中的策略更新有什么关系
最优性原理:一个最优策略的子策略必须是最优的。
在强化学习中,策略实际上是状态到动作的映射,在某一个状态下,策略决定了采取什么动作。
如果每一个状态下采取的动作都是最优动作,那么,总的策略也会是最优的。
6、完成时序差分学习中式(16.31)的推导。
时序差分学习的特点就是每执行一步策略后就进行值函数的更新。
在计算第 t + 1 t+1 t+1个采样 r t + 1 r_{t+1} rt+1时按照增量平均公式有:
Q t + 1 π ( x , a ) = Q t π ( x , a ) + 1 t + 1 ( r t + 1 − Q t π ( x , a ) ) Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\frac{1}{t+1}(r_{t+1}-Q^\pi_{t}(x,a)) Qt+1π(x,a)=Qtπ(x,a)+t+11(rt+1Qtπ(x,a))
采用近似的方法,令 α = α t + 1 , α \alpha=\alpha_{t+1},\alpha α=αt+1,α为较小的整数。这种近似在 t t t增大时是收敛的。结合策略改进方式(16.15)有:
r t + 1 = ( R x → x ′ a + γ max ⁡ a ′ ∈ A + Q t π ( x ′ , a ′ ) r_{t+1}=(R^a_{x\rightarrow x'}+\gamma\max\limits_{a'\in A}+Q^\pi_{t}(x',a') rt+1=(Rxxa+γaAmax+Qtπ(x,a)
推出:
Q t + 1 π ( x , a ) = Q t π ( x , a ) + α ( R x → x ′ a + γ max ⁡ a ′ ∈ A Q t π ( x ′ , a ′ ) − Q t π ( x , a ) ) Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x'}+\gamma\max\limits_{a'\in A}Q^\pi_{t}(x',a')-Q^\pi_{t}(x,a)) Qt+1π(x,a)=Qtπ(x,a)+α(Rxxa+γaAmaxQtπ(x,a)Qtπ(x,a))
综合 ε \varepsilon ε-贪心法可以的到:
Q t + 1 π ( x , a ) = Q t π ( x , a ) + α ( R x → x ′ a + γ Q t π ( x ′ , a ′ ) − Q t π ( x , a ) ) Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x'}+\gamma Q^\pi_{t}(x',a')-Q^\pi_{t}(x,a)) Qt+1π(x,a)=Qtπ(x,a)+α(Rxxa+γQtπ(x,a)Qtπ(x,a))

可结合我的这篇博文一起理解 强化学习——Q学习算法

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐