logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据分析与挖掘期末部分选择题知识点

1.决策树ID3算法,C4.5算法,CART算法选择最优分裂属性的方法分别是,信息增益。信息增益率,基尼系数。13.再序列数据库中,任何支持度大于等于最小支持度阈值的序列都是频繁的,一个频繁的序列被称为序列模式。数据集成:把不同的来源,格式,特点性质的数据在逻辑上或物理上有机地集中,从而提供更加全面的数据共享。14.数据清洗:数据清洗主要是将原始数据的缺失值,异常值,重复值进行处理,使数据变得干净

文章图片
#数据分析#决策树#机器学习
数据挖掘的Apriori算法和FP-Growth算法通用语言总结

实现:树的根节点设置为null,先得到一项集,得到支持度计数,将原有的事务数据库中的事务,按照支持度进行排列,除去非频繁项。然后用每个事务作为树的节点进行扫描,每个节点包括他在该路径的计数,每个相同项计数相加等于该项的支持度计数。1.5 Apriori算法实现:先找出所有的一项集,然后将一项集组合形成二项集,以此规律形成三项集,三相集的子集不能是非频繁的,非频繁的除去。1.1 支持度计数:项集在数

文章图片
#数据挖掘#人工智能
到底了