
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
使用Pandas读取excel中的数据时,常常会遇到类似1,000,000这样的数据。Pandas读取后会认为这是个字符型,而这样的数据还不能直接用类型转换实现。正确的用法如下:data['amount'] = data['amount'].apply(lambda x: float(x.split()[0].replace(',', ''))if(',' in str(...
项目中处理好数据后,进行特征筛选,并将筛选好的特征按照IV值大小进行倒序排序。sorted排好序后,输出的list类型数据,需要将其转为pandas中的dataframe,方便后续存储。先按照特征的IV值排序:dic_sort = sorted(result_list.items(), key=lambda item: item[1], reverse=True)sorted后的数据...
现实环境中,采集的数据(建模样本)往往是比例失衡的。比如网贷数据,逾期人数的比例是极低的(千分之几的比例)。对于这样的数据很难建立表现好的模型。好在Python有Imblearn包,它就是为处理数据比例失衡而生的。一.安装Imblearn包pip3 install imblearn二.过采样正样本严重不足,那就补充正样本。使用imblearn包中的over_sampling进行过...
最近在做个项目,样本比例严重失衡,正负样本比例差不多1:10的样子。如此严重失衡的样本比例,模型训练的效果自然不会好,甚至很差。还是那句话,数据决定了上限,模型只是逼近这个上限而已。那遇到这种情况我们改如何解决呢?方法如下:增加缺失样本这是最好也是最难的方法,因为一般样本比例严重失衡肯定是有原因的。比如预测信用卡逾期,逾期的人肯定是极少数,所以很难搜集更多的逾期样本。过采样复制样...
现实环境中,采集的数据(建模样本)往往是比例失衡的。比如网贷数据,逾期人数的比例是极低的(千分之几的比例)。对于这样的数据很难建立表现好的模型。好在Python有Imblearn包,它就是为处理数据比例失衡而生的。一.安装Imblearn包pip3 install imblearn二.过采样正样本严重不足,那就补充正样本。使用imblearn包中的over_sampling进行过...
看到很多人查这个问题,刚好这两天在项目上也用到这一点。要查看各列的数据类型,因为数据处理时,首先就是要高清手里的数据都是什么类型的,尤其要关注字符型,因为很多算法都是不支持字符类型的。当数据维度和数据量都很少的时候,可以很直观的看出来,但是数据量一大,很难肉眼观测,而且很多时候是看不出隐藏的数据问题的。所以要用代码,其实代码很简单。一、读取数据df = pd.read_csv('da...
模型训练完成后,即使模型评估很好,各项指标都很到位,业务人员肯定也是心里没底的,哪怕有模型公式,他们也看不懂啊。咋整,当然是先把模型的重要评估指标打印给他们看,再把特征贡献度从大到小,画成图给他们看啦。今天就通过sklearn实现模型评估指标和特征贡献度的图形查看。本文的数据集采用泰坦尼克号幸存者数据。使用sklearn的决策树和随机森林进行预测,然后查看模型的评估指标,最后将特征的贡献度从大..
在学习机器学习的过程中,很多人都应该有这样的疑问:模型训练好了,以后要用怎么办呢?肯定不能再跑一边数据,重新训练模型以供使用,因为这样太费时间。最好的办法当然是,训练和预测分开。训练好模型后,将模型保存好,当需要预测时,直接读取模型文件来调用,进行预测。无论是sklearn还是TensorFlow,都有模型的保存和调用方法。这里我们介绍使用pickle进行模型保存和调用的方法。1.导入pick..
昨天做了随机森林回归预测,但是在做模型评估时报了如题所示的错误: ValueError: Can't Handle mix of binary and continuous报错代码如下:precision, recall, F1, _ = precision_recall_fscore_support(y_test, pred_test, average="binary")其实
模型训练完成后,即使模型评估很好,各项指标都很到位,业务人员肯定也是心里没底的,哪怕有模型公式,他们也看不懂啊。咋整,当然是先把模型的重要评估指标打印给他们看,再把特征贡献度从大到小,画成图给他们看啦。今天就通过sklearn实现模型评估指标和特征贡献度的图形查看。本文的数据集采用泰坦尼克号幸存者数据。使用sklearn的决策树和随机森林进行预测,然后查看模型的评估指标,最后将特征的贡献度从大..







