
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
我们在运用pandas写机器学习的数据预处理时,数据清洗和建模部分有时候会觉得写的比较乱,维护和修改较为麻烦。不过,sklearn库中的Pipeline(流水线)较好地解决了这个问题,

对于低维度数据集,或者高维度数据集在使用pca等方法降维后,有时需要根据标签画出3维图,不同类别标签使用不同颜色。如下图所示,x,y,z为数据特征,根据类别使用不同颜色。可见,特征混叠严重,需要更换降维方法。以下,将以 kaggle中Instant Gratification数据集(二分类数据集)为例,在使用pca降维后,根据类别使用不同颜色画图。

个性化定制输出报告,一般我们要修改参数或者配置文件。本文介绍了常用的参数,并且修改了配置文件的一部分来演示结果。

改了bug1:当score最大的锚框出现在左上是少统计的bug。bug2:while有时无限循环,加个counter限制最大循环。加了最小准确率的参数,有时候有用。返回结果改成了直接返回bbox和score,避免了index的改动问题。

在pandas中,如果需要查看column的类型,一般使用df.dtypes方法,它将返回每个列的数据类型。但实践中,有时会出现需要包含多种数据类型的场景,或者dataFrame包含的表格出错,出现了多种数据类型。为了观察dataFrame中的所有类型在列中的分布情况,我们写了对应的检查函数。

在IEEE搜索时,在查找关键词时,若选择相关度,被引用量可能很低,反之亦然,所以,我们导出搜索结果后使用pandas进行数据清洗,来解决问题(有代码,有解析)

方法一:pandas_profiling输出分析以泰坦尼克号数据集为例,如果只是康康然后疯狂复制粘贴的话那没啥,但是如果想全流程自动化,就要把ProfileReport的结果用到接下来的数据处理中,不妨把结果输出到json文件。from pandas_profiling import ProfileReportimport pandas as pddf = pd.read_csv('train.c








