
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
以下节选于:数据分析的统计基础,个人认为对理解假设检验较为深入。
在时间序列分析当中,我们经常会遇到时间轴上数据缺失值的补充,常用的方法使用移动平均值。Series的方法fillna()实现了该功能。常用的移动平均值方法有以下两种:滚动平均值roll_mean=reindexed['ppg'].rolling(window=30).mean()滚动平均值的理解较为简单:如现在有一个Series,包含100个数(),现在我们要以10为窗口,计算滚动...
一、对数转换对数函数可以对大数值的范围进行压缩,对小数值的范围进行扩展。x越大,log(x)增长得越慢。如下图:我们以如下数据为例。biz_file = open('精通特征工程/精通特征工程/data/yelp_academic_dataset_business.json')biz_df = pd.DataFrame([json.loads(x) for x in biz_file.readli

一、主成分分析(PCA)主成分分析,Principal Component Analysis (PCA),是现代数据分析的标准工具,它可以把庞大复杂的高维数据集,通过数学变换,转化成较低维度的数据集,并去除掉维度之间的相关性。1、PCA原理主成分分析的原理非常简单,概括来说就是选择包含信息量大的维度,去除信息量少的“干扰”维度。注意:这边所谓的“维度”不是原始数据的某个特征,而是原...
在时间序列分析当中,我们经常会遇到时间轴上数据缺失值的补充,常用的方法使用移动平均值。Series的方法fillna()实现了该功能。常用的移动平均值方法有以下两种:滚动平均值roll_mean=reindexed['ppg'].rolling(window=30).mean()滚动平均值的理解较为简单:如现在有一个Series,包含100个数(),现在我们要以10为窗口,计算滚动...
总体方差,也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差:,其中,为总体的均值,为总体的标准差,为总体的样本数。样本方差,无偏方差,在实际情况中,总体均值是很难得到的,往往通过抽样来计算,于是有样本方差,计算公式如下:或者,其中,为样本的均值,为样本的标准差,为样本的个数。实际操作中,我们一般通过抽样来验证总体。就会面临以下两种情况:(总体的均值)已...
用于控制时间间隔,间隔多少年/月/天/时/分/秒/import datetimedate_end=pd.to_datetime(datetime.datetime.now())date_start=pd.to_datetime('2019/11/06')date_start_end_minutes=date_end-date_startdate_start_end_days=d...
数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。标准化方法公式优点缺点转换区间适用场景Z-Score(标准化)适用大多数类型的数据,标准化之后的数据是以0为均值,方差为1的正态分布是一种中心化方法,会改变原有数据得分布结构...

一、构建包含异常值的矩阵import pandas as pdimport matplotlib.pyplot as plt#构建包含异常值的矩阵df=pd.DataFrame([[1,12],[120,17],[3,31],[5,53],[2,22],[12,32],[13,43]],columns=['col1','col2'])df输出:二、画图#散点图p...
digitize函数主要用于将一组数据进行分区,案例如下import numpy as npimport pandas as pdfrom IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"df=pd.DataFrame(np.ra...







