简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1. JVM生命周期启动。启动一个Java程序时,一个JVM实例就产生了,任何一个拥有public static void main(String[] args)函数的class都可以作为JVM实例运行的起点。运行。main()作为该程序初始线程的起点,任何其他线程均由该线程启动。消亡。当程序中的所有非守护线程都终止时,JVM才退出;若安全管理器允许,程序也可以使用Runtime类或者...
GBDT是一种集成学习算法,却和传统的Adaboost有很大的不同。回顾下Adaboost,它是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同(备注:Adaboost我会再新开日记)。CART决策树既可以用于分类也可以用于回归,决策树分为分类树和..
面板数据(Panel Data)是将“截面数据”和“时间序列数据”综合起来的一种数据类型。具有“横截面”和“时间序列”两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一条线上的一维数据有着明显的不同,整个表格像是一个面板,所以称为面板数据(Panel Data)。实际上如果从数据结构内在含义上,应该把Panel Data称为“时间序列-截面...
加深理解数据挖掘概念及数据的一些理论内容,会让你对数据有直观的认识,保持清晰的目的性,在之后的数据挖掘工作中如鱼得水。数据挖掘到底是啥?官方定义,在大型数据存储库中,自动地发现有用信息的过程。数据挖掘的一般过程:1、 数据预处理2、 数据挖掘3、 后处理1、预处理。通常数据挖掘需要较大的数据量,这些数据可能格式不同,存在缺失值或无效值,即是数据清洗处理这些‘脏’数据。...
1、数据挖掘与机器学习有时候,人们会对机器学习与数据挖掘这两个名词感到困惑。如果你翻开一本冠以机器学习之名的教科书,再同时翻开一本名叫数据挖掘的教材,你会发现二者之间有相当多重合的内容。比如机器学习中也会讲到决策树和支持向量机,而数据挖掘的书里也必然要在决策树和支持向量机上花费相当的篇幅。可见二者确有相当大的重合面,但如果细研究起来,二者也的确是各自不同的领域。大体上看,数据挖掘可以视为数据...
在主成分分析(PCA)原理总结中,我们对降维算法PCA做了总结。这里我们就对另外一种经典的降维方法线性判别分析(Linear Discriminant Analysis, 以下简称LDA)做一个总结。LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用,因此我们有必要了解下它的算法原理。 在学习LDA之前,有必要将其自然语言处理领域的LDA区别开来,在自..
时序预测(Arima 和 HoltWinters)算法 及 评估方法 整理。spark 库里没有 Spark TimeSeries 时序预测算法,但是国外有人已经写好了相应的算法。https://github.com/sryza/spark-timeseries时间序列分析时间序列,就是按时间顺序排列的,随时间变化的数据序列。生活中各领域各行业太多时间序列的数据了,销售额,顾客数,访问量...
过拟合标准定义:给定一个假设空间H,一个假设 h 属于H,如果存在其他的假设 h’ 属于H,使得在训练样例上 h 的错误率比 h’ 小,但在整个实例分布上 h’ 比 h 的错误率小,则假设 h 过度拟合训练数据。 —-《Machine Learning》Tom M.Mitchell 因为在统计学习中,假设数据满足独立同分布(i.i.d,independently ...
隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。基本理论隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向...
特征选择在实际工程中,对于特征变量的选取,往往是基于业务经验,也就是所谓你的先验知识。现在数据的特征维度很多,而能作为训练集的样本量却往往远小于特征数量(如基因测序、文本分类)。特征选择的好处:便于理解和可视化数据,降低计算及存储压力,对抗维度灾难以提高模型预测准确率等等。特征选择的三类主流方法为:过滤式、包裹式、嵌入式。一、过滤式变量排序就是一种典型的过滤式方法,...