logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

统计学基础——为什么样本方差(sample variance)的分母是 n-1?

总体方差,也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差:,其中,为总体的均值,为总体的标准差,为总体的样本数。样本方差,无偏方差,在实际情况中,总体均值是很难得到的,往往通过抽样来计算,于是有样本方差,计算公式如下:或者,其中,为样本的均值,为样本的标准差,为样本的个数。实际操作中,我们一般通过抽样来验证总体。就会面临以下两种情况:(总体的均值)已...

#数学
np.timedelta64()函数

用于控制时间间隔,间隔多少年/月/天/时/分/秒/import datetimedate_end=pd.to_datetime(datetime.datetime.now())date_start=pd.to_datetime('2019/11/06')date_start_end_minutes=date_end-date_startdate_start_end_days=d...

机器学习——特征工程——数据的标准化(Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer)

数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。标准化方法公式优点缺点转换区间适用场景Z-Score(标准化)适用大多数类型的数据,标准化之后的数据是以0为均值,方差为1的正态分布是一种中心化方法,会改变原有数据得分布结构...

文章图片
python的pandas异常值处理(Z-score方法)

一、构建包含异常值的矩阵import pandas as pdimport matplotlib.pyplot as plt#构建包含异常值的矩阵df=pd.DataFrame([[1,12],[120,17],[3,31],[5,53],[2,22],[12,32],[13,43]],columns=['col1','col2'])df输出:二、画图#散点图p...

python——numpy——数据分区(digitize,cut,qcut,quantile函数)

digitize函数主要用于将一组数据进行分区,案例如下import numpy as npimport pandas as pdfrom IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"df=pd.DataFrame(np.ra...

线性代数——柯西不等式

一、柯西不等式1、基本介绍设,,其中,则,取等时,,即。2、证明取向量,。因为

机器学习——需求预测——准确性(误差)统计——MAE、MSE、MAPE、WMAPE

误差指标公式(为预测值,为真实值)特点缺点MAE1、易受真实值量纲上的差别带来的影响MSE1、加倍惩罚极端误差1、易受真实值量纲上的差别带来的影响2、极端值的影响MAPEWMAPE一、平均绝对误差(Mean Absolute Error,MAE)其中,为预测值,为真实值。由于...

文章图片
#数据分析
统计推断——假设检验——方差分析之多重比较(LSD法、Sidak法、Bonferroni法、Dunnett法、Tukey法、SNK 法、Duncan法)

在一个试验中,有个处理平均数间比较时,其全部可能的相互比较对数有个,这种比较是复式比较,亦称多重比较(multiple comparisons)。为什么要做多重比较呢?方差分析后做多重比较有很多好处:误差由多个处理内的变异合并估计,自由度增大了,因而比较的精确度也增大了。检验显著,说明可以判定多个处理间存在显著的变异。因此方差分析后再做多重比较,称为Fisher氏保护性多重比较(F...

机器学习——关联规则——支持度(support)、置信度(confidence)、提升度(Lift)

一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例,那么Support=Confidence(可信度):表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。公式表达:Confidence=Lift(提升度):表示“包含A的...

统计推断——假设检验——卡方检验

一、独立样本四格表资料的检验问题的提出:检验:比较两个样本均数的差别是否有统计学意义。检验:多个样本均数之间的差别是否有统计学意义。在医学研究中,还常需对比两组或多组定性变量(如检验结果:愈合和未愈合)资料之间的差别,例如比较两种或多种治疗方法的治愈率是否不同。该怎么办?1.1 检验的基本思想假设两种药物治疗的愈合率是相等的(成立的条件下),那么这两种药物的愈合率就可...

    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择