
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
K近邻算法(K-Nearest Neighbors,简称KNN)是一种基本的分类和回归算法。它的基本原理是通过测量样本之间的距离来对未知样本进行分类或预测。KNN算法被归类为一种“懒惰学习”(lazy learning)算法,因为它没有显式地从训练数据中学习模型,而是在需要进行分类或预测时才对训练数据进行计算。
EM算法(Expectation-Maximization algorithm)是一种迭代算法,用于求解含有隐变量(latent variable)的概率模型参数估计问题。它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM)等等。它被广泛应用于统计学和机器学习中,特别是在无监督学习中,如聚类、混合高斯模型等问题。EM算法的目标是通过迭代优化的方式,最大化观测数据的似然函数
聚类算法是一类无监督学习算法,用于将数据集中的对象分组(或聚类)成具有相似性的集合。聚类算法不依赖于预定义的类别标签,而是根据数据的内在特点将相似的数据点聚集在一起。聚类算法的目标是通过最大化组内的相似性和最小化组间的差异来实现聚类。聚类算法可以帮助我们发现数据中的潜在结构、识别相似的数据点、进行数据压缩和预处理等。
然而,信息增益偏向于选择具有较多取值的特征,因此,在实际应用中,可以使用信息增益比等指标来对信息增益进行修正,以避免对具有较多取值的特征的过度偏好。在上面的介绍中,我们有意忽略了“编号”这一列,若把“编号”也作为一个候选划分属性,则根据信息增益公式可计算出它的信息增益率为0.9182,远大于其他候选划分属性。如果一个分割点可以将当前的所有节点分为两类,使得每一类都很“纯”,也就是同一类的记录较多,
KD树(K-Dimensional Tree)是一种用于高效处理多维数据的数据结构。它是二叉搜索树的一种变体,在每个节点上对数据进行分割,从而构建一个多维空间的层次结构。因为KD树是基于二叉搜索树的特性构建的,所以它保留了二叉搜索树的一些性质,例如在插入和搜索操作中的平均时间复杂度为O(log n)。但与传统的二叉搜索树不同的是,KD树的节点划分是基于多维空间的划分,而不仅仅是单个维度上的划分KD
朴素贝叶斯算法(Naive Bayes Algorithm)是一种基于贝叶斯定理和特征独立性假设的概率分类算法。它被广泛应用于文本分类、垃圾邮件过滤、情感分析等任务。朴素贝叶斯算法的基本思想是基于训练数据中的特征和标签之间的概率关系,通过计算后验概率来进行分类预测。朴素贝叶斯分类算法alpha:拉普拉斯平滑系数。
SVM(Support Vector Machine)是一种常见的监督学习算法,用于进行二分类或多分类任务。它的主要思想是找到一个最优的超平面,将不同类别的样本分隔开。超平面最大间隔介绍:上左图显示了三种可能的线性分类器的决策边界:虚线所代表的模型表现非常糟糕,甚至都无法正确实现分类。其余两个模型在这个训练集上表现堪称完美。但是它们的决策边界与实例过于接近,导致在面对新实例时,表现可能不会太好。右
XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升树的机器学习算法,它在解决分类和回归问题上表现出色。它是由陈天奇在2014年开发的,如今已成为机器学习领域中最流行和强大的算法之一。XGBoost结合了梯度提升框架和决策树模型,通过迭代地训练一系列的决策树来逐步改进预测性能。它的目标是优化损失函数,使得预测值与实际值之间的误差最小化。
逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。