
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
聚类算法之层次聚类方法
目录AGNES算法DIANA算法类间距离的不同定义层次聚类算法的优缺点层次聚类方法对给定的数据集进行层次的分解,直到满足某种条件为止。具体又可分为:凝聚的层次聚类AGNES算法和分裂的层次聚类DIANA算法。AGNES算法一种自底向上的策略,首先将每个样本各自分到一个类,之后将相距最近的两类合并成一个新的类,重复此操作直到满足停止条件。需要预先确定下面三个要素:1.距离或相似度公式;2.合并规则:
数据预处理:数据降维
目录数据降维的应用场景基于特征选择的降维基于维度转换的降维参考资料:1.《Python数据分析与数据化运营》宋天龙2.主成分分析(PCA)原理详解 - 知乎3.机器学习中SVD总结数据降维的应用场景数据降维可以降低模型的计算量并减少模型运行时间、降低噪音对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。是
解决分类中样本分布不平衡问题
3.4 解决样本类别分布不均衡的问题 - 知乎所谓的不平衡指的是不同类别的样本量异非常大。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种。大数据分布不均衡。这种情况下整体数据规模大,只是其中的少样本类的占比较少。但是从每个特征的分布来看,小样本也覆盖了大部分或全部的特征。例如拥有1000万条记录的数据集中,其中占比50
到底了







