logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Pandas数据分析 - 分列 - split() 用法

函数用法:split(sep,n,expand=false)sep表示用于分割的字符;n表格分割成多少列;expand表示是否展开为数据款,True输出Series,False输出Dataframe。import numpy as npimport pandas as pd# 将每个数据按照_分割返回结果默认是一个由列表组成的Seriess = pd.Series(['a_b_c', 'd_e_f

#数据分析#python#pandas
数据清洗 - 异常值(学习笔记)

异常值又称离群点。异常值的鉴别1.描述分析pandas: data.describe() 可以得到连续型数据的均值、最大值、最小值、中位数、四分位、总数、标准差等。通过描述分析查看出数据中有无极端值,并将极端值剔除。一般可以初步筛查时使用。2.散点图通过展示两组数据的位置关系,可以清晰直观地看出哪些值是离群值。异常值会改变数据间的关系,通常在研究数据关系,如进行回归分析前,都会先做散点图观察数据中

#机器学习
特征选择-方差过滤 (学习笔记)

方差过滤找到方差大有区分度的特征,过滤掉那些特征方差较小的特征。比如一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用。所以可以设置一个过滤的阈值,过滤掉那些方差小的特征,从而达到特征筛选的目的。注意不要将重要的特征过滤掉。适用于稀疏矩阵(数值为0的元素数目远远多于非0元素的数目,并且非0元素分布没有

#python
机器学习 - 异常检测 Anomaly Detection(学习笔记)

根据输入数据,对不符合预期的模式的数据进行识别,寻找低概率数据(事件)。# train the model (unsupervised study)# 修改概率密度阈值contamination,可调整异常点检测的灵敏度from sklearn.covariance import EllipticEnvelopead_model = EllipticEnvelope(contamination=0

#机器学习
Pandas数据分析 - 分列 - split() 用法

函数用法:split(sep,n,expand=false)sep表示用于分割的字符;n表格分割成多少列;expand表示是否展开为数据款,True输出Series,False输出Dataframe。import numpy as npimport pandas as pd# 将每个数据按照_分割返回结果默认是一个由列表组成的Seriess = pd.Series(['a_b_c', 'd_e_f

#数据分析#python#pandas
机器学习 - SPSS - 聚类(学习笔记)

两步聚类(Two Step)同时处理类别变量、连续变量自动确定最终的分类个数,具备自动探索未知领域的能力占用内存资源小,适合处理大型数据集,速度快同其他统计方法一样,二阶聚类也有严苛的适用条件,它要求模型中的变量独立,类别变量是多项式分布,连续变量须是正态分布。步骤:1.预聚类,即对案例进行初步归类,也允许最大类别数由使用者决定;2.正式聚类,将步骤1的出局类别在进行聚类,并确定最终的聚类方案,并

#聚类#机器学习
到底了