logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

随机森林算法的数学推导

想象一下,如果我们在所有决策树的每个节点划分时都使用相同的最优特征,那么这些决策树的结构会非常相似,预测结果也会高度相关。通过随机选择一部分特征,我们可以让不同的决策树在不同的特征子空间上进行学习,从而增加它们之间的差异性。决策树的核心思想是通过一系列的 if-then-else 规则将数据逐步划分到不同的子集,直到每个子集中的样本属于同一类别(或具有相似的输出值)。对于一个新的输入样本,每棵决策

文章图片
#算法#随机森林#机器学习 +1
集成学习:通过简单例子演示推导SAMME算法

SAMME(Stagewise Additive Modeling using a Multiclass Exponential loss function)是对Adaboost的一种扩展,用于处理多分类问题。Adaboost本身主要用于二分类问题,而SAMME通过调整弱分类器的权重计算和最终的分类组合方式,使得它可以应用于多类别任务。SAMME算法由 Zhu 等人在 2009 年提出,它将 Ad

文章图片
#集成学习#算法#机器学习
信息熵、信息增益与基尼系数的基本概念及其衡量数据集纯度的原理

信息熵是衡量数据集纯度或不确定性的重要指标,是基于信息论提出的概念,描述了一个系统的混乱程度或随机性。信息增益衡量的是通过某个特征对数据集进行划分后,数据纯度的提升程度。它是决策树划分特征的关键指标之一。基尼系数是另一个衡量数据集纯度的指标,主要用于 CART(分类回归树)算法中。因此,基尼系数越小,数据集的纯度越高。这表明信息熵越高,数据集越不纯。类样本数占总样本数的比例)。的权重(占总数据集的

#机器学习#人工智能#决策树 +1
到底了