
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在打乱数据集的时候遇到了这样一个问题:我有两组数据集,一组是image,一组是mask(语义分割任务,与本文无关),image和mask里都是图片,且一一对应,即。注意,因为shuffle函数是在原数组上直接操作的,不是生成一个新的打乱的数组,因此一次shuffle(a)之后,a就变成了打乱后的样子。其实,三次shuffle(b)也是按相同的规则打乱的,但该规则不同于shuffle(a)的规则,因
基尼系数,分类/回归决策树,TPR,FPR,ROC,AUC, Gridsearch,k折交叉验证
声明本文为学习笔记,侵权删。
基尼系数,分类/回归决策树,TPR,FPR,ROC,AUC, Gridsearch,k折交叉验证
声明本文为学习笔记,侵权删。一、相关系数rr类似于直线斜率k,r>0,则表示正相关,r
K-Means聚类算法,K-Means是非监督学习的聚类算法,将一组数据分为K类(或者叫簇/cluster),每个簇有一个质心(centroid),同类的数据是围绕着质心被分类的。数据被分为了几类就有几个质心。算法步骤:1、先从原始数据集中随机选出K个数据,作为K个质心。2、将剩余的数据分配到与之最相似的的质心的那个簇里。3、第一次分类完成后,计算每个簇内样本的均值,并根据这个均值生成新的质心4、
声明:本文为学习笔记,侵权删关联分析:参考啤酒与尿不湿的故事,啤酒和尿不湿本身没有关系,但通过调查买啤酒的人有大概率会买尿不湿,所以啤酒+尿不湿就成了一个销售组合。得出这个销售组合的过程就是关联分析。事务:每条购买信息就是一个事务。项集:一条事务中物品的随机组合产生的集合。一个集合里有几个项,就叫几项集。比如在下面这份数据中,有四个事务,{捏脚}是一项集,{捏脚,SPA}是二项集。支持度:supp
目录一、读取CSV文件二、数据清洗1、识别并处理缺失值 2、识别并处理异常值3、识别并处理重复值三、分组处理1、设置行索引:data.set_index("Index")2、数据分组统计:groupBy()声明:本文为学习笔记,侵权删所用函数:pandas.read_csv(file_path)数据挖掘时我们更多得会使用CSV文件,而不是Excel文件。如果数据本身以Excel的形式存储,只需打开







