logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Python数据分析-数据预处理

数据预处理1.前言数据质量分析是数据预处理的前提,是数据挖掘分析结论有效性和准确性的基础,其主要任务是检查原始数据中是否存在脏数据,脏数据一般指的是不符合要求的,以及不能直接进行相应分析的数据。脏数据包括:缺失值异常值不一致的值重复数据及含有特殊符号(如#、¥、*)的数据2.数据探索2.1缺失值分析data.describe()#查看数据的基本情况len(data)#查看数据的总条数2.2 异常值

文章图片
#python#数据分析#数据挖掘
机器学习---决策树 算法原理及代码实现

如果用决策树进行分类,则是将一组给定数据从根节点开始,对样本的某一特征进行测试,判断其隶属于哪一个子节点,然后循环往复,直至没有子节点出现,也就是到达叶节点,最终实现分类效果。信息增益其存在偏向取值较多的特征类别,比如说在某次分类中,每个样本都有一个自己的id号,为了使得信息熵下降最快,决策树会认为按这个id号作为分类最快,但这也因此引发了模型的错误。也就是,当决策树对某个叶节点在未进行剪枝前的损

文章图片
#机器学习#决策树#算法
到底了