
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、策略梯度算法推导以及解释1.1 背景设πθ(s)\pi_{\theta }(s)πθ(s)是一个有网络参数θ\thetaθ的actor,然后我们让这个actor和环境(environment)互动或者说去玩一场游戏,在这个游戏中actor会观测环境处于的某种状态s,然后根据这个环境的状态做出一定的动作a(action)来应对环境的变化,从而得到一定的奖励r(reward)下面是一个使用神经网
1、Minsky与Papert指出:感知机因为是线性模型,所以不能表达复杂的函数,比如异或(XOR)。验证感知机为什么不能表示异或。解:下面是异或的运算结果:异或: 如果两个值相同则异或操作的结果是0,如果不相同则为1由此我们可以看到,这也是一个二分类的问题,异或的运算如表所示XORaba01b10如果我们去a = 0, b = 1,将上表的结果画在二维平面,如下图。我们可以看到,对于蓝色的圆点和
11.1、写出图11.3中无向图描述的概率图模型的因子分解式。解:根据最大团的定义可知,该最大团共有两个最大团,李航老师的书上也指了出来。分别是:c1=(Y1,Y2,Y3),c2=(Y2,Y3,Y4) c_{1}=(Y_{1},Y_{2},Y_{3}), c_{2}=(Y_{2},Y_{3},Y_{4})c1=(Y1,Y2,Y3),c2=(Y2,Y3,Y4)那么根据Hammersl
1、确认逻辑斯谛分布属于指数分布族。证明:逻辑斯谛分布的概率密度函数是:f(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2(1)f(x) = \frac{e^{-(x-\mu )/\gamma } }{\gamma (1+e^{-(x-\mu )/\gamma})^{2} } \tag{1}f(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ(1)而指数族分布是指概率密度函数可以表
1、证明生成模型和共享模型是等价的。证明:1.1生成模型首先,生成模型基于假设:假设在话题zzz给定条件下,单词www和文本ddd条件独立,即:P(w,z∣d)=P(z∣d)P(w∣z,d)=P(z∣d)P(w∣z)(1)P(w,z|d) = P(z|d)P(w|z,d) = P(z|d)P(w|z)\tag{1}P(w,z∣d)=P(z∣d)P(w∣z,d)=P(z∣d)P(w∣z)(1)公式(
1、试将图17.1的例子进行潜在语义分析,并对结果进行观察。解:使用奇异值分解算法进行分析,该矩阵的阶数比较低,使用梯度下降算法感觉会麻烦一点,还可能无法达到最优解。程序是:import numpy as npdef solution(A):U,S,V_T = np.linalg.svd(A)return U, S, V_Tif __name__ == '__main__':A = np.arra
1、使用极大似然估计法推出朴素贝叶斯法概率估计公式(4.8)以及公式(4.9).解答:概率估计公式(4.8)是:P(Y=ck)=∑i=1NI(yi=ck)N,k=1,2,...,KP(Y = c_{k}) = \frac{\sum_{i=1}^{N}I(y_{i} = c_{k}) }{N},k = 1,2,...,K P(Y=ck)=N∑i=1NI(yi=ck),k=1,2,...,K
1、比较感知机的对偶形式与线性可分支持向量机的对偶形式。1.1、感知机的对偶形式由于李航老师书上的感知机的对偶形式有点问题,这里先对其进行一下改进最后学习到的感知机的参数是:w=∑i=1Nαiyixi(1)w = \sum_{i = 1}^{N}\alpha _{i} y_{i} x_{i}\tag{1}w=i=1∑Nαiyixi(1)b=∑i=1Nαiyi(2)b = \sum_{i =
1、根据表5.1所给的训练数据集,利用信息增益比(C4.5算法)生成决策树。解:下面先给出计算信息增益比的程序,并且输出最好的特征import numpy as npdef info_ratio(D, Y, n):'''计算信息增益比Parameters----------D : numpy array训练数据集.Returns-------最优特征.'''#下面开始修正数据
这篇文章将要介绍传统的qlearning算法,使用的是迭代的方法更新q表,更新q表的方法类似于向前推进,而不是使用梯度下降方法,因为这里介绍的不是Deep QLearning方法。一、算法介绍以及推导注:这里更新的不是agent,而是一个q表,q表里面记录的是agent在某个状态采取某个的动作的好坏,q表可以起到间接决定agent采取什么决策。q表就类似一个critic,一个评论家,来指导agen







