logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

统计学——单因素方差分析

概念方差分析:又称变异分析,是英国统计学家R.A.Fisher于1923年提出的一种统计方法,故有时也称为F检验。可简写为ANOVA。用于多组均数 之间的显著性检验。要求:各组观察值服从正态分布或近似正态分布,并且各组之间的方差具有齐性。基本思想:将所有测量值间的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计...

机器学习——陈天奇Boosted Tree(GBDT)详解

工作了好多年,从最开始使用xgboost,到后来的lightGBM,它们的底层原理都是Boosted Tree,之前一直没有做过总结,今天我就把陈天奇的Boosted Tree翻译一下,让大家从原理了解什么是Boosted Tree,如果有任何理解或者描述错误的地方,欢迎大家批评指正。如果涉及到我自己的理解的内容,我会用绿色的字来表示。建议大家直接看原文档,链接为:https://home...

超详细的信息熵、信息增益、信息增益比、基尼系数

一、信息在开始解释信息熵和信息增益之前,我们先来解释一下什么是信息:能消除不确定性的内容才能叫信息,而告诉你一个想都不用想的事实,那不叫信息。比如数据分析师的工作经常是要用数据中发现信息,有一天上班你告诉老大从数据中发现我们的用户性别有男有女。。。(这不废话吗?)这不叫信息,但是如果你告诉老大女性用户的登录频次、加购率,浏览商品数量远高于男性,且年龄段在25岁~30岁的女性用户消费金额最多...

R语言——中文分词包jiebaR

R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。要成为有理想的极客,我们不能停留在语法上,要

统计学——中心极限定理(R语言)

中心极限定理用通俗的话来讲就是,假设有一个服从(μ,σ2)的总体,这个总体的分布可以是任意分布,不用是正态分布,既可以是离散的,也可以是连续的。我们从该分布里随机取n个样本x1,x2,...,xn,然后求这些样本的均值x_mean,这个过程我们重复m次,我们就会得到x_mean_1,x_mean_2,...,x_mean_m,如果n-->∞,这些样本的均值服从N(μ,σ2/n)的正态分布。

统计学——线性回归决定系数R2

决定系数(coefficient ofdetermination),有的教材上翻译为判定系数,也称为拟合优度。决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征依变数Y的变异中有多少百分比,可由控制的自变数X来解释.表达式:R2=SSR/SST=1-SSE/SST其中:SST=SSR+SSE,SST(total sum of squares)为总平方和,SSR(reg

R语言——关于R在Linux服务器上生成图片中文乱码原因及解决办法

乱码原因:    主要是因为Linux没有对应字体库导致。Linux本身自带字体库(具体有啥,暂不深究),但不包含windows上的,尤其像“微软雅 黑”这样的字体库(主因应该是版权问题);所以在Windows开发R程序,在设置字体后(如“宋体”、“黑体”、“微软雅黑”),在Linux上是无法 显示的。 解决办法:    以CentOS为例,其他版本请自行对照相应路

#linux
统计学——线性回归决定系数R2

决定系数(coefficient ofdetermination),有的教材上翻译为判定系数,也称为拟合优度。决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征依变数Y的变异中有多少百分比,可由控制的自变数X来解释.表达式:R2=SSR/SST=1-SSE/SST其中:SST=SSR+SSE,SST(total sum of squares)为总平方和,SSR(reg

到底了