么心learning 个人主页

@opp003

么心learning

2023-01-30 13:16:19 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

数据分析：使用Imblearn处理不平衡数据（过采样、欠采样）

现实环境中，采集的数据（建模样本）往往是比例失衡的。比如网贷数据，逾期人数的比例是极低的（千分之几的比例）。对于这样的数据很难建立表现好的模型。好在Python有Imblearn包，它就是为处理数据比例失衡而生的。一.安装Imblearn包pip3 install imblearn二.过采样正样本严重不足，那就补充正样本。使用imblearn包中的over_sampling进行过...

数据分析：使用Imblearn处理不平衡数据（过采样、欠采样）

Pandas：将excel中字符型数据转为float数值型

使用Pandas读取excel中的数据时，常常会遇到类似1,000,000这样的数据。Pandas读取后会认为这是个字符型，而这样的数据还不能直接用类型转换实现。正确的用法如下：data['amount'] = data['amount'].apply(lambda x: float(x.split()[0].replace(',', ''))if(',' in str(...

Pandas高级：list转为dataframe

项目中处理好数据后，进行特征筛选，并将筛选好的特征按照IV值大小进行倒序排序。sorted排好序后，输出的list类型数据，需要将其转为pandas中的dataframe，方便后续存储。先按照特征的IV值排序：dic_sort = sorted(result_list.items(), key=lambda item: item[1], reverse=True)sorted后的数据...

#list

机器学习：样本比例失衡的处理

最近在做个项目，样本比例严重失衡，正负样本比例差不多1：10的样子。如此严重失衡的样本比例，模型训练的效果自然不会好，甚至很差。还是那句话，数据决定了上限，模型只是逼近这个上限而已。那遇到这种情况我们改如何解决呢？方法如下：增加缺失样本这是最好也是最难的方法，因为一般样本比例严重失衡肯定是有原因的。比如预测信用卡逾期，逾期的人肯定是极少数，所以很难搜集更多的逾期样本。过采样复制样...

#机器学习

数据分析：使用Imblearn处理不平衡数据（过采样、欠采样）

Pandas基础：查看各列数据类型

看到很多人查这个问题，刚好这两天在项目上也用到这一点。要查看各列的数据类型，因为数据处理时，首先就是要高清手里的数据都是什么类型的，尤其要关注字符型，因为很多算法都是不支持字符类型的。当数据维度和数据量都很少的时候，可以很直观的看出来，但是数据量一大，很难肉眼观测，而且很多时候是看不出隐藏的数据问题的。所以要用代码，其实代码很简单。一、读取数据df = pd.read_csv('da...

机器学习：sklearn模型指标和特征贡献度查看

模型训练完成后，即使模型评估很好，各项指标都很到位，业务人员肯定也是心里没底的，哪怕有模型公式，他们也看不懂啊。咋整，当然是先把模型的重要评估指标打印给他们看，再把特征贡献度从大到小，画成图给他们看啦。今天就通过sklearn实现模型评估指标和特征贡献度的图形查看。本文的数据集采用泰坦尼克号幸存者数据。使用sklearn的决策树和随机森林进行预测，然后查看模型的评估指标，最后将特征的贡献度从大..

#sklearn

机器学习：Python模型的保存与读取

在学习机器学习的过程中，很多人都应该有这样的疑问：模型训练好了，以后要用怎么办呢？肯定不能再跑一边数据，重新训练模型以供使用，因为这样太费时间。最好的办法当然是，训练和预测分开。训练好模型后，将模型保存好，当需要预测时，直接读取模型文件来调用，进行预测。无论是sklearn还是TensorFlow，都有模型的保存和调用方法。这里我们介绍使用pickle进行模型保存和调用的方法。1.导入pick..

#机器学习

问题解决： ValueError: Can't Handle mix of binary and continuous

昨天做了随机森林回归预测，但是在做模型评估时报了如题所示的错误： ValueError: Can't Handle mix of binary and continuous报错代码如下：precision, recall, F1, _ = precision_recall_fscore_support(y_test, pred_test, average="binary")其实

共 12 条

请选择