corina_qin 个人主页

@m0_65392155

corina_qin

2023-07-31 13:48:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习 - 聚类层次聚类 Hierarchical（学习笔记）

其核心思想是，把每一个单个的观测都视为一个类，而后计算各类之间的距离，选取最相近的两个类，将它们合并为一个类。新的这些类再继续计算距离，合并到最近的两个类。如此往复，最后就只有一个类。然后用树状图记录这个过程，这个树状图就包含了我们所需要的信息。...

#聚类 #机器学习

Pandas数据分析 - 分列 - split() 用法

函数用法：split(sep,n,expand=false)sep表示用于分割的字符；n表格分割成多少列；expand表示是否展开为数据款，True输出Series，False输出Dataframe。import numpy as npimport pandas as pd# 将每个数据按照_分割返回结果默认是一个由列表组成的Seriess = pd.Series(['a_b_c', 'd_e_f

#数据分析 #python #pandas

数据清洗 - 异常值（学习笔记）

异常值又称离群点。异常值的鉴别1.描述分析pandas: data.describe() 可以得到连续型数据的均值、最大值、最小值、中位数、四分位、总数、标准差等。通过描述分析查看出数据中有无极端值，并将极端值剔除。一般可以初步筛查时使用。2.散点图通过展示两组数据的位置关系，可以清晰直观地看出哪些值是离群值。异常值会改变数据间的关系，通常在研究数据关系，如进行回归分析前，都会先做散点图观察数据中

#机器学习

特征选择-方差过滤（学习笔记）

方差过滤找到方差大有区分度的特征，过滤掉那些特征方差较小的特征。比如一个特征本身的方差很小，就表示样本在这个特征上基本没有差异，可能特征中的大多数值都一样，甚至整个特征的取值都相同，那这个特征对于样本区分没有什么作用。所以可以设置一个过滤的阈值，过滤掉那些方差小的特征，从而达到特征筛选的目的。注意不要将重要的特征过滤掉。适用于稀疏矩阵（数值为0的元素数目远远多于非0元素的数目，并且非0元素分布没有

#python

机器学习 - 异常检测 Anomaly Detection（学习笔记）

根据输入数据，对不符合预期的模式的数据进行识别，寻找低概率数据（事件）。# train the model (unsupervised study)# 修改概率密度阈值contamination，可调整异常点检测的灵敏度from sklearn.covariance import EllipticEnvelopead_model = EllipticEnvelope(contamination=0

#机器学习

Pandas数据分析 - 分列 - split() 用法

#数据分析 #python #pandas

到底了