
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、基础理解使用逻辑回归算法训练模型时,为模型引入多项式项,使模型生成不规则的决策边界,对非线性的数据进行分类;问题:引入多项式项后,模型变的复杂,可能产生过拟合现象;方案:对模型正则化处理,损失函数添加正则项(αL2),生成新的损失函数,并对新的损失函数进行优化;优化新的损失函数:满足了让原来的损失函数尽量的小;另一方面,对于...
一、基础理解LASSO 回归(Least Absolute Shrinkage and Selection Operator Regression)是模型正则化的一定方式;功能:与岭回归一样,解决过拟合或者模型含有的巨大的方差误差的问题;二、LASSO 回归以线性回归为例 1)对于岭回归任务:让最小化的损失函数对应的θ 值尽量的...
一、判断机器学习算法的性能机器学习经过训练得到的模型,其意义在于真实环境中的使用;将全部的原始数据当做训练集直接训练出模型,然后投入到真实环境中,这种做法是不恰当的,存在问题:如果模型效果很差,没有机会通过实际调试就直接应用到实际当中,怎么办?(# 实例:股市预测)在真实环境中,开发者难以拿到真实label(输出结果),则无从得知模型的效果?(# 实例:银行发...
一、思维理解X:原始数据集;Wk:原始数据集 X 的前 K 个主成分;Xk:n 维的原始数据降维到 k 维后的数据集;将原始数据集降维,就是将数据集中的每一个样本降维:X(i) . WkT = Xk(i);在人脸识别中,X 中的每一行(一个样本)就是一张人脸信息;思维:其实 Wk 也有 n 列,如果将 Wk 的每一行看做...
一、信息熵百科:信息熵衡量信息的不确定度; 1)理论提出信息论之父 C. E. Shannon 指出:任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。Shannon 把信息中排除了冗余后的平均信息量称为“信息熵”。通常,一个信源发送出什么符号是不确定的(不同的...
一、基础理解 1)PCA 降维的基本原理寻找另外一个坐标系,新坐标系中的坐标轴以此表示原来样本的重要程度,也就是主成分;取出前 k 个主成分,将数据映射到这 k 个坐标轴上,获得一个低维的数据集。 2)主成分分析法的本质将数据集从一个坐标系转换到另一个坐标系,原坐标系有 n 个维度(n 中特征),则转换的新坐标系也有 n 个维度,每个主成分表示一个维度...
一、项目目录(一)数据加载基础统计特征分类基本分布(scatter)(二)数据分析正态性检验偏离度分析 (hist | scatter)峰度分析 (hist | scatter)分散度分析 (box)特征本身分散度SalePrice 的分散度方差齐次检验方差分析 (bar)scipy...
一、分类精准度的缺陷 1)评论算法的好坏回归问题:MSE、MAE、RMSE、R^2(以为最好的标准);分类问题:分类准确度(score() 函数);分类算法的评价要比回归算法的评价标准复杂的多;评论分类算法好坏的指标,有多种,具体选择评价指标时要根据数据和应用场景而定; 2)分类准确度类评价分类算法的好坏存在问题实例说明...
一、多元线性回归基础简单线性回归算法只有一个特征值(x),通常线性回归算法中有多个特征值,有的甚至有成千上万个特征值;多元线性回归中有多种特征,每一种特征都与 y 呈线性关系,只是线性关系的系数不同;多元线性回归的模型可以解决一元线性回归问题;多元线性回归模型中,每一种特征都与值(也就是 y)呈线性关系,从θ1 到θn ,以此为第一个特征到第 n 个特征与值的线性...
一、基础理解 1)PCA 降维的基本原理寻找另外一个坐标系,新坐标系中的坐标轴以此表示原来样本的重要程度,也就是主成分;取出前 k 个主成分,将数据映射到这 k 个坐标轴上,获得一个低维的数据集。 2)主成分分析法的本质将数据集从一个坐标系转换到另一个坐标系,原坐标系有 n 个维度(n 中特征),则转换的新坐标系也有 n 个维度,每个主成分表示一个维度...







