
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
上篇博客说的是梯度下降法,主要讲的原理及公式推导,这篇博客来进行代码实现。包括手动模拟梯度下降的方式来进行求解,以及运用自己实现的梯度下降来完成一个线性回归的例子。
这篇博客开始另外一种聚类——层次聚类,层次聚类和K-Means是同一类的,属于划分聚类。层次聚类方法对给定的数据集进行层次的分解,直到满足某种条件为止.
这篇博客介绍另一种类型的聚类算法——密度聚类。密度聚类方法的指导思想:只要样本点的密度大于某个阈值,则将该样本添加到最近的簇中。这类算法可以克服基于距离的算法只能发现凸聚类的缺点,可以发现任意形状的聚类,而且对噪声数据不敏感。但是计算复杂度高,计算量大。常用算法有:DBSCAN 和 MDCA。
这里使用比较经典的鸢尾花数据,来做KNN分类。API为最基本的KNeighborsClassifier。
普通的线性回归往往拟合效果不好,比如图形是曲线的形式,可以做一个多项式扩展,变到高维空间。也可以说多项式扩展能解决线性回归模型欠拟合的情况。但多项式的阶数如果太高,就会导致过拟合的情况,也就是训练集上特别好,测试集不太理想。对于过拟合可以使用L1或L2来解决,也就是在J(θ) 的基础上把模型的复杂度加上,如岭回归。
概述Lasso回归采用的是坐标轴下降法(Coordinate Descent, CD)是一种迭代法,通过启发式的方法一步步的迭代求解函数的最小值,和梯度下降法(GD)不同的是,坐标轴下降法是沿着坐标轴的方向去下降,而不是采用梯度的负方向下降。示意图大致如下:坐标轴下降法利用EM算法的思想,在参数更新过程中,每次均先固定 m-1 个参数值,求解剩下的一个参数的局部最优解;然后进行迭代式的更新...
这里对一些零碎的知识点进行补充,由于内容比较少,不再做详细的介绍。
结果的好坏,都要有相应的指标来衡量。尤其聚类的特殊性,也有一些特殊的算法。
接下来几篇博客介绍决策树,并且尽量用最直白的话来讲解。本篇博客介绍决策树中比较重要的一个概念——信息熵。
前两篇博客介绍的是线性回归,线性回归的一个问题是有可能出现欠拟合现象,解决欠拟合其中的一个方法是本文的多项式扩展,还有一个是后面的博客会介绍的局部加权线性回归(Locally Weighted Linear Regression,LWLR)。