
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文章目录一、KNN1、K值的判断与选取2、缺失值差填补3、KNN填充和模型评估4、RESSION一、KNNKNN最邻近分类算法的实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票法则(majority-voting),将未知样本与K个最邻近样本中所属类别占比较多的归为一类。KNN属于懒惰
一、关联规则含义事务仅包含其涉及到的项目,而不包含项目的具体信息。(只要购买某种商品,则这种商品的标签就为1,否则为0,不管买了多少件产品)X==>Y含义:- X和Y是项集- X称为规则前项- Y称为规则后项
文章目录一、降维究竟是怎样实现的二维特征矩阵降维的一般过程PCA降维与特征选择的不同:重要参数n_components迷你案例:高维数据的可视化6、探索降维后的数据最大似然估计自选超参数按信息量占比选超参数1、一、降维究竟是怎样实现的【1】降维:减少特征,删除数据,模型受影响【2】噪音:【3】PCA使用样本方差二维特征矩阵降维的一般过程过程二维特征矩阵n维特征矩阵1输入原数据,结构为(2,3)23
安装完AccessDatabaseEngine_X64 (2016).exe后,准备在从Excel导入数据时:输入如下代码SELECT * FROM OPENROWSET('Microsoft.ACE.OLEDB.12.0','Excel 12.0;Database=D:\S072003228DBS\食品销售数据\类别.XLSX',[类别$]);报错一:SQLServer阻止了对组件’AdHocD
本篇博客参考链接:1、iris-经典案例解析-机器学习我们要解决的问题如下:已知鸢尾花iris分为三个不同的类型:山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica,这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标(也可能还有其他参考)。我们并不知道具体的分类标准,但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定,我们也可以对每一朵鸢尾花
文章目录一、归一化处理import numpy as npimport pandas as pdfrom scipy.cluster.vq import *import matplotlib.pyplot as pltfrom sklearn.manifold import TSNEfrom scipy.spatial.distance import cdistfrom matplotlib.ti
注:本篇文章参考:b站:机器学习经典算法——回归算法文章目录一、机器学习简介二、回归算法三、支持向量机要解决的问题四、支持向量机求解目标五、核函数变换一、机器学习简介机器学习应用的领域非常广泛:数据挖掘:分析用户信息,提高用户对产品的依赖性。计算机视觉:无人驾驶汽车–实时进行检测任务机器学习的步骤:1、训练样本2、特征提取(数据科学家:知道一份数据如何是机器能更好的识别特征)3、学习函数4、预测N
一、关联规则含义事务仅包含其涉及到的项目,而不包含项目的具体信息。(只要购买某种商品,则这种商品的标签就为1,否则为0,不管买了多少件产品)X==>Y含义:- X和Y是项集- X称为规则前项- Y称为规则后项
文章目录一、降维究竟是怎样实现的二维特征矩阵降维的一般过程PCA降维与特征选择的不同:重要参数n_components迷你案例:高维数据的可视化6、探索降维后的数据最大似然估计自选超参数按信息量占比选超参数1、一、降维究竟是怎样实现的【1】降维:减少特征,删除数据,模型受影响【2】噪音:【3】PCA使用样本方差二维特征矩阵降维的一般过程过程二维特征矩阵n维特征矩阵1输入原数据,结构为(2,3)23
导入NBA数据,我放在我的gitee里面,需要的朋友点击文章最上面的链接自取。NBA数据的属性如下:共27个特征,718条数据。这27个特征中有一些特征不重要,因此我们只选取一些较为重要的参数。根据这些参数进行分析,然后预测一些球队得冠军的概率有多高。定义我们需要的特征:有六条数据中三分球的得分为0,这可能会对最终的数据造成影响。由于含有694个空值,因此我们需要将空值变成0在对数据有了大概的处理







