
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
数据预处理通常获取数据通常都是不完整的,缺失值、零值、异常值等情况的出现导致数据的质量大打折扣,而数据预处理技术就是为了让数据具有更高的可用性而产生的,在本章中学习一下如何用Python进行数据预处理。数据预处理是什么当用户拿到一份新数据的时候,通过各种手段进行数值替换,空值填充等过程就是数据预处理。本文中我们将会了解到的数据预处理方式有:① 一般的数据预处理;② 缺失值的处理;③ 异常值的处理;

Python数据可视化一网打进数据可视化作为数据分析最直接的结果呈现方式,了解其制作方式和应用场景是很有必要的,本文来了解一下各个图标的应用场景及代码实现。本文使用的代码主要基于做图库plotly如果使用中有不懂的内容,联系二哥!可以先收藏点赞,后面掏出来直接用!一、可视化绘制思维导图二、比较类图创建示例数据如下:import pandas as pddata = pd.DataFrame({'n

Q-Learning走迷宫上文中我们了解了Q-Learning算法的思想,基于这种思想我们可以实现很多有趣的功能和小demo,本文让我们通过Q-Learning算法来实现用计算机来走迷宫。原理简述我们先从一个比较高端的例子说起,AlphaGo大家都听说过,其实在AlphaGo的训练过程中就使用了Q-Learning的思想,对于机器下错棋和下对棋的时候给予一定的惩罚和奖励,当经过无数次的训练之后,机
漏斗思维的概念比较简单,所谓的漏斗指的就是层层递减的结构,最终组成一个漏斗样式的模型,而递减的状态是多种业务/产品发展的常态,比如一个线下服装门店,进店的人很多(第一层),试衣服的人少一些(第二层),买衣服的人更少(第三层)这三个层级就会形成一个简单的漏斗模型。从转化链路来看,从获客到传播的整个过程中,每向下深入一个层级,对应的用户数就会照上一层有一定的损失,因此层级越向下,对应的漏斗也就变的越窄
pandas_profiling我们常用pandas中的df.describe()函数去描述数据的情况,但是不能够直观的去展示出数据的分布情况,今天要介绍的这个工具pandas_profiling就是扩展了pandas中的DataFrame并且能自动进行数据分析并生成分析报告的库。在分析过程中会得到下面的结果:要点:类型,唯一值,缺失值分位数统计信息,例如最小值,Q1,中位数,Q3...
数据分析面试题——MySQL系列常考题目。
ROC曲线什么是ROC曲线?ROC曲线经常作为评估二分类的重要指标,其起源于军事领域,全称叫做receiver operating characteristic curve。ROC曲线是二维平面内的曲线,其横坐标为假阳性率(FPR),纵坐标为真阳性率(TPR)他们的计算方法如下:上式中:P:真实的正样本的数量N:真实的负样本的数量TP:P个正样本中被分类器预测为...
如何进行用户分群?分群后的策略如何进行?
特征选择为什么要进行特征选择我们在现实任务中经常会遇到维数灾难的问题,这是由于属性过多而造成的,若能从中选择出重要的特征,使得后续学习过程仅需在一部分特征上构建模型,则维数灾难问题会大为减轻。去除不相关特征往往会降低学习任务的难度,我们把复杂的问题变得简单化,往往也能使得效率变高,结果变的更准确。过滤式(Filter)过滤式是过滤式的方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续
XGBoost和GBDT一样,XGBoost也是一种基于CART树的Boosting算法,让我们来看一下如何通俗的去理解XGBoost。先简单的回想一下,在我们之前提到过的GBDT中是怎样用很多棵树去做预测的?很简单,我们给了每棵树不同的训练数据,得到多种不同的结果,最终我们把这些结果相加作为最终的预测值就可以了。XGBoost的定义举一个简单的例子,我们要预测一家人对电子游戏的喜好程度,考虑到年







