
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1. GBDT算法原理XGBoost实现的是一种通用的Tree Boosting算法,此算法的一个代表为梯度提升决策树(Gradient Boosting Decision Tree, GBDT)GBDT的原理是:>首先使用训练集和样本真值(即标准答案)训练一棵树,然后使用这棵树预测训练集,得到每个样本的预测值,由于预测值与真值存在偏差,所以二者相减可以得到“残差”。>接下来训练第二棵
引言:数据不给力,再高级的机器算法都没用。sklearn中提供的数据都是比较完美的数据集;而在现实的数据集中,比平时学的数据集要差十万八千里。因此,我们有必要学习一下建模之前的流程,数据预处理和特征工程。数据预处理和特征工程数据挖掘的五大流程:1.获取数据2.数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程。 可能面对的问题有:数据类型不同(比如有的是文字,有的
完整的机器学习项目主要步骤:1、明确问题首先要划定问题:监督或者非监督,还是强化学习?这是个分类任务、回归任务还是其他的?2、获取数据机器学习结果的上限由数据决定,而算法只是尽可能地接近这个上限。数据要有代表性。涉及到numpy、pandas3、特征预处理与特征选择良好的数据要能够提取良好的特征才能真正发挥数据的效力。特征预处理、数据清洗是很关键的步骤,往往能够使算法的效果和性能得到显著提升,归一
决策树1.决策树与随机森林都属于机器学习中监督学习的范畴,主要用于分类问题。决策树算法有这几种:ID3、C4.5、CART,基于决策树的算法有bagging、随机森林、GBDT等。决策树是一种利用树形结构进行决策的算法,对于样本数据根据已知条件或叫特征进行分叉,最终建立一棵树,树的叶子结节标识最终决策。新来的数据便可以根据这棵树进行判断。随机森林是一种通过多棵决策树进行优化决策的算法。...
总结:线性回归是一种评估自变量X与因变量Y之间的关系>画出的图像是直的(简单线性回归是直线,多元线性回归是超平面)多元线性回归原理:
集成学习集成学习什么是集成学习弱学习和强学习集成学习有效的前提集成学习分类AdaBoost什么是集成学习所谓集成学习简单理解就是指采用多个分类器对数据集进行预测,从而提高整体分类器的泛化能力。弱学习和强学习准确率仅比随机猜测略高的学习算法称为弱学习算法;识别准确率很高并能在多项式时间内完成的学习算法称为强学习算法。集成学习有效的前提1.分类器的精度,每个弱分类器的分类精度必须大于0.5。2.弱分类
嵌入法:1、概念嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,我们先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性,比如决策树和树的集成模型中的feature_importances_属性,可以列出各个特征对树的建立的贡献,我们就可以基于这种贡献的评估
1. 解释一下GBDT算法的过程GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,使用的是Boosting的思想。1.1 Boosting思想Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到
分类树与回归树分类树用于分类问题。分类决策树在选取划分点,用信息熵、信息增益、或者信息增益率、或者基尼系数为标准。Classification tree analysis is when the predicted outcome is the class to which the data belongs.回归决策树用于处理输出为连续型的数据。回归决策树在选取划分点,就希望划分的两个分支的误差越
引言:数据不给力,再高级的机器算法都没用。sklearn中提供的数据都是比较完美的数据集;而在现实的数据集中,比平时学的数据集要差十万八千里。因此,我们有必要学习一下建模之前的流程,数据预处理和特征工程。数据预处理和特征工程数据挖掘的五大流程:1.获取数据2.数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程。 可能面对的问题有:数据类型不同(比如有的是文字,有的







