logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【机器学习】XGBoost 原理及调参指南 整理

XGBoostXGBoost能自动利用cpu的多线程,而且适当改进了gradient boosting,加了剪枝,控制了模型的复杂程度传统GBDT以CART作为基分类器,特指梯度提升决策树算法,而XGBoost还支持线性分类器(gblinear),这个时候XGBoost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一...

大数据抽样- 概率抽样,随机采样

在统计学中,抽样(Sampling)是一种推论统计方法,是指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。概率抽样方法简单随机抽样(simple random sampling),也叫纯随机抽样。从总体N个单位中随机地抽取n个单位作为样...

【机器学习】熵(信息熵,联合熵,交叉熵,互信息)

机器学习中的各种熵,什么是熵?什么是交叉熵?什么是联合熵?什么是条件熵?什么是相对熵?它们的联系与区别是什么?前言:你必须知道的信息论1948年,数学家和电气工程师克劳德香农(Claude Elwood Shannon)在其开创性论文《通信的数学理论》中提出了“信息论”,这一概念。对深度学习和人工智能的发展具有非凡的意义。那么,对于信息论大家又了解多少呢?在本文中,Abhis...

【机器学习】逻辑回归 LR 算法 整理

有了 Sigmoid 函数之后,由于其值取值范围在[0,1]。就可以将其视为类 1 的后验概率估计 p(y=1|X)。就是如果有一个测试点 x,就可以用Sigmoid函数算出来的结果当作该点 x 属于类别 1 的概率大小。于是,非常自然地,把 Sigmoid 函数计算得到的值大于等于0.5的归为类别1,小于0.5的归为类别0:1.逻辑斯蒂回归模型LR模型主要用于分类模型,细...

#逻辑回归
【机器学习】线性回归,多元线性回归、自回归及衡量指标

经典线性模型自变量的线性预测就是因变量的估计值。广义线性模型:自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有:probit模型、poisson模型、对数线性模型等。对数线性模型里有:logistic regression、Maxinum entropy。1.线性回归原理其中,为偏置参数,M为特征数目,为基函数(径向基函数(rbf)、sigmoid基函数等),特...

#线性回归
横截面数据、时间序列数据、面板数据

面板数据(Panel Data)是将“截面数据”和“时间序列数据”综合起来的一种数据类型。具有“横截面”和“时间序列”两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一条线上的一维数据有着明显的不同,整个表格像是一个面板,所以称为面板数据(Panel Data)。实际上如果从数据结构内在含义上,应该把Panel Data称为“时间序列-截面...

【机器学习】马尔可夫(Markov)预测法 整理

隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。基本理论隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向...

【机器学习】LDA算法 (主题模型算法)

随着互联网的发展,文本分析越来越受到重视。由于文本格式的复杂性,人们往往很难直接利用文本进行分析。因此一些将文本数值化的方法就出现了。LDA就是其中一种很NB的方法。 LDA有着很完美的理论支撑,而且有着维度小等一系列优点。本文对LDA算法进行介绍,欢迎批评指正。本文目录:1、Gamma函数2、Dirichlet分布3、LDA文本建模4、吉普斯抽样概率公式推导5、使用...

【机器学习】模型过拟合的处理方法 整理

过拟合标准定义:给定一个假设空间H,一个假设 h 属于H,如果存在其他的假设 h’ 属于H,使得在训练样例上 h 的错误率比 h’ 小,但在整个实例分布上 h’ 比 h 的错误率小,则假设 h 过度拟合训练数据。 —-《Machine Learning》Tom M.Mitchell  因为在统计学习中,假设数据满足独立同分布(i.i.d,independently ...

spark rdd详解 整理

spark简介Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供A..

    共 24 条
  • 1
  • 2
  • 3
  • 请选择