
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这篇文章根据《深度学习入门》第4章的内容,完成了手写数字识别这个小案例。这一章节的重点是,如何让神经网络“**学会学习**”。为了能够使得神经网络学会学习,将导入`损失函数`这一指标,找到使损失函数达到最小的权重参数。为了找出尽可能小的损失函数值,我们使用`梯度下降法`。
下图介绍了一些符号。注意:(1)Rt1R_{t+1}Rt1其实也可以写成RtR_{t}Rt,就是说在状态StS_{t}St下选择了动作AtA_{t}At,得到了奖励RtR_{t}Rt。这是说得通的,但一般都习惯性地写成Rt1R_{t+1}Rt1。(2)S、A、R都是随机变量,所以可以对它们求期望等操作。(3)这个single-step process是由概率分布决定的。(见下图三行蓝字

算法起初有一个策略。

vπsv_{\pi}(s)vπs是state value的真实值,vswvsw是state value的近似值。我们的目标是找到一个最优的www,使得对于每一个状态sssvswvsw都能最好地近似vπsv_{\pi}(s)vπs。为了寻找最优的www,我们定义如下目标函数:值得指出的是,SSS是一个随机变量,既然是一个随机变量,这个随机变量就是有概率分布的。那么S的概率分布是什么呢?有几种方式

之前提到的值迭代算法、策略迭代算法都属于model-based reinforcement learning,而蒙特卡洛方法属于model-free reinforcement learning。对于初学者来说,最难以理解的是,如何在没有模型的情况下去估计一些变量。其中有一个重要的思想就是 **Monte Carlo Estimation**。

博主暑期整理了一些操作系统相关的问题,以作保研面试之用。在此分享给大家~
笔者最近阅读了《深度学习入门——基于Python的理论与实现》这本书的第三章,章节最后刚好有个手写数字识别的实战内容,于是就照着书本内容写了程序跑了一下,在此做个记录。
学习过程中遇到的问题

一些数据结构相关的问题,以作保研面试之用
笔者最近阅读了《深度学习入门——基于Python的理论与实现》这本书的第三章,章节最后刚好有个手写数字识别的实战内容,于是就照着书本内容写了程序跑了一下,在此做个记录。