
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
线性回归之前介绍的信用卡发放列子,我们从数据集出发进行训练,最后得出的结论是:给或者不给。但是,我们想要从这些数据出发,最后让机器告诉我们给他们多大的额度是最合适的。这就是不同于之前提到的Linear Classification的Linear Regression线性回归问题。二者的区别我们可以从下图中进行区分:...
VC Dimension机器学习必须满足两个重要的条件,才能够学到有用的东西:假设空间H的size M有限,当N足够大的时候,挑选一个g,使得Ein(g)≈Eout(g)E_{in}(g)\approx E_{out}(g)Ein(g)≈Eout(g)利用
过拟合通俗来讲过拟合就是,选用的模型过于复杂。dvcd_{vc}dvc过大,模型在训练集上有很好的表现。但是在真实预测过程中的表现和训练集上的差别过大。也就是没有做到机器学习的两个核心要打求之一的Ein≈EoutE_{in}\approx{E_{out}}Ein≈Eout。过拟合详细分析假如有五个点是通过二次抛物线f(x)f(x)f(x)产生的,产生之后加入少量的误差f(x)=f(x)+no
噪声和错误我们之前的研究都是假设在样本数据完美,没有噪声存在的前提下进行推导的。然后得出机器能够学到东西的结论,但是,现实中噪声的存在是不可避免的。所谓的噪声就是样本中有问题的点。以银行卡发放的列子,来阐述噪声产生的原因:样本标记错误。比如说应该发放银行卡的用户,错误的标记为不符合规定的用户。不同的评判标准,导致噪声的产生。比如两个用户的属性状态基本一致,判定一个发放另一个不发放。输入样本中存在噪
正则化引入正则化的目的是为了解决过拟合问题。左边的图中蓝色的线是目标函数,随机产生五个带噪声的点。我们理想的拟合曲线为红色的线,虽然有些许误差,但是整体拟合情况和目标函数接近。但是,事先不知道需要用二次曲线来拟合这些点。如果使用了更高次方的假设函数,可能就会出现右图中的情况。虽然在训练集上能很好的拟合这五个点,但是他与目标函数相差很大。在未来的预测过程中,犯错误的可能性也会很大。这就是过拟合。我们
1.训练与测试通过机器学习的可行性分析,我们得到了一些东西。首先根据NFL定理,机器学习可能行不通,随后根据统计学的相关知识,机器学习似乎又是可行的。但是这个似乎的可行性又有一点限制:M必须是有限的。M代表的含义是hypothesis的个数。那么当M是无限的时候机器学习还能进行下去吗?接下来的几篇笔记会对这个问题进行分析。1.1回顾...
1.没有免费午餐定理机器学习的基本思路是:我们从已知的数据集D出发,经过训练,让机器得到一个好的函数g,利用函数g我们可以对未知的数据进行预测。但是,这种方法真的行的通吗?我们来看一个列子:如下图所示,有三个标签为+1的九宫格,和三个标签为-1的九宫格,根据这6个样本,我们需要判断出g(x)g(x)g(x)的取值是+1还是-1。我们可以认为g(x)g(x)g(x)=+1。因为根据之前的样本,凡是等
非线性模型线性模型在处理线性可分的资料时具有良好的表现,通过计算wTxw^TxwTx得到分数sss,然后进行取正负号操作也即:sign(s)sign(s)sign(s),将数据进行分类。通过不断的优化得到一个相对完美的www,就在空间中确定了一条直线,将数据进行完美的分类:但是,这种分类方式具有一定的局限性。对于线性不可分的数据,就显得有些力不从心了:对于上图的这种情况,无论怎么优化直线,在数据集
过拟合通俗来讲过拟合就是,选用的模型过于复杂。dvcd_{vc}dvc过大,模型在训练集上有很好的表现。但是在真实预测过程中的表现和训练集上的差别过大。也就是没有做到机器学习的两个核心要打求之一的Ein≈EoutE_{in}\approx{E_{out}}Ein≈Eout。过拟合详细分析假如有五个点是通过二次抛物线f(x)f(x)f(x)产生的,产生之后加入少量的误差f(x)=f(x)+no
噪声和错误我们之前的研究都是假设在样本数据完美,没有噪声存在的前提下进行推导的。然后得出机器能够学到东西的结论,但是,现实中噪声的存在是不可避免的。所谓的噪声就是样本中有问题的点。以银行卡发放的列子,来阐述噪声产生的原因:样本标记错误。比如说应该发放银行卡的用户,错误的标记为不符合规定的用户。不同的评判标准,导致噪声的产生。比如两个用户的属性状态基本一致,判定一个发放另一个不发放。输入样本中存在噪







