
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
K近邻算法(K-Nearest Neighbors,简称KNN)是一种基本的分类和回归算法。它的基本原理是通过测量样本之间的距离来对未知样本进行分类或预测。KNN算法被归类为一种“懒惰学习”(lazy learning)算法,因为它没有显式地从训练数据中学习模型,而是在需要进行分类或预测时才对训练数据进行计算。
EM算法(Expectation-Maximization algorithm)是一种迭代算法,用于求解含有隐变量(latent variable)的概率模型参数估计问题。它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM)等等。它被广泛应用于统计学和机器学习中,特别是在无监督学习中,如聚类、混合高斯模型等问题。EM算法的目标是通过迭代优化的方式,最大化观测数据的似然函数
聚类算法是一类无监督学习算法,用于将数据集中的对象分组(或聚类)成具有相似性的集合。聚类算法不依赖于预定义的类别标签,而是根据数据的内在特点将相似的数据点聚集在一起。聚类算法的目标是通过最大化组内的相似性和最小化组间的差异来实现聚类。聚类算法可以帮助我们发现数据中的潜在结构、识别相似的数据点、进行数据压缩和预处理等。
然而,信息增益偏向于选择具有较多取值的特征,因此,在实际应用中,可以使用信息增益比等指标来对信息增益进行修正,以避免对具有较多取值的特征的过度偏好。在上面的介绍中,我们有意忽略了“编号”这一列,若把“编号”也作为一个候选划分属性,则根据信息增益公式可计算出它的信息增益率为0.9182,远大于其他候选划分属性。如果一个分割点可以将当前的所有节点分为两类,使得每一类都很“纯”,也就是同一类的记录较多,
Boosting(提升)是一种集成学习方法,通过组合多个弱学习器来构建一个强学习器。与Bagging不同,Boosting采用了序列化的方式构建模型,每个弱学习器都是在前一个弱学习器的基础上进行训练,通过逐步调整样本的权重或难易程度来提高模型的预测性能。简而言之:没新加入一个弱学习器,整体能力就会得到提升代表算法有:Adaboost,GBDT,XGBoost,LightGBM初始化样本权重:对于包
KD树(K-Dimensional Tree)是一种用于高效处理多维数据的数据结构。它是二叉搜索树的一种变体,在每个节点上对数据进行分割,从而构建一个多维空间的层次结构。因为KD树是基于二叉搜索树的特性构建的,所以它保留了二叉搜索树的一些性质,例如在插入和搜索操作中的平均时间复杂度为O(log n)。但与传统的二叉搜索树不同的是,KD树的节点划分是基于多维空间的划分,而不仅仅是单个维度上的划分KD
朴素贝叶斯算法(Naive Bayes Algorithm)是一种基于贝叶斯定理和特征独立性假设的概率分类算法。它被广泛应用于文本分类、垃圾邮件过滤、情感分析等任务。朴素贝叶斯算法的基本思想是基于训练数据中的特征和标签之间的概率关系,通过计算后验概率来进行分类预测。朴素贝叶斯分类算法alpha:拉普拉斯平滑系数。
AdaBoost(Adaptive Boosting)是一种集成学习算法,通过组合多个弱分类器来构建一个强分类器。它是由Freund和Schapire在1996年提出的,是集成学习中最早被广泛应用的算法之一。如何改变训练数据的权重或概率分布提高前一轮被弱分类器错误分类的样本的权重,降低前一轮被分对的权重。如何将弱分类器组合成一个强分类器,亦即,每个分类器,前面的权重如何设置采取“多数表决”的方法。