简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
数据规约产生更小且保持完整性的新数据集,在规约后的数据集上进行分析和挖掘将提高效率一、属性规约属性规约通过属性合并创建新属性维数,或者通过直接删除不相关的属性来减少数据维数,从而提高数据挖掘的效率,降低计算成本。属性规约常见的方式如下表所示:属性规约方法方法描述合并属性将一些旧属性合并为新属性逐步向前选择从一个空属性集开始,每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中,直到无法选
决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。常见的决策树算法如下:决策树算法算法描述ID3算法在决策树各级节点上,使用信息增益的方法作为属性的选择标准C4.5算法ID3的改进版,使用信息增益率来选择节点属性。ID3只适用于离散的描述属性,而C4
NRC词典简介:NRC词典由加拿大国家研究委员会(简称NRC)的专家创建,目前已有多种语言版本,我们可以用其中文版本来进行情感分析。使用一系列单词来帮助识别情绪,情感,并分析标签,表情符号和单词颜色的关联。词典中包含情绪的类别主要有以下几种:我们可以用以下代码看词典中情感相关内容:import pandas as pdlexion_df = pd.read_excel('E:/JupyterPro
我想绘制一个带有误差棒的散点图,同时数据的第三个属性能用散点大小和颜色表示,我查了很多资料发现如果单独用errorbar来绘制图,其点的大小和颜色很难根据数据而改变,尤其是很难达到一个渐变的效果,因此我想到了把散点图和误差棒图结合为一张图最后我得到的图如下:先分别介绍一下两个函数的参数1. scatter函数(散点图)x,y,z分别代表数据的三个属性,其中x,y分别表示为横纵坐标,z用散点的颜色和
用python对单一微博文档进行分词——jieba分词(加保留词和停用词)
主题建模作为一种基于机器学习的文本内容分析技术,一般用于推断文本文档中隐藏主题的技术。很多研究使用了基于Latent Dirichlet Allocation (LDA)的主题建模算法来处理大规模文档并识别潜在主题。LDA主题模型已经在多个研究领域得到应用,且都有着不俗表现。LDA作为一种无监督机器学习技术,利用词袋方法识别隐藏在大规模文档集或语料库中的主题信息。LDA模型可挖掘出文档集或语料库中
在做数据处理的时候经常会用到numpy和pandas,有时候容易搞混,这篇文章就从功能方面总结对比一下二者的区别。一、简介numpy:numpy是以矩阵为基础的数学计算模块,提供高性能的矩阵运算,数组结构为ndarray。可以把它看作是多维数组(ndarray)的容器,可以对数组执行元素级计算以及直接对数组执行数学运算的函数。其也是用于读写硬盘上基于数组的数据集的工具。数据处理速度比Python自
一、LDA主题模型简介LDA主题模型主要用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类。LDA主题模型不关心文档中单词的顺序,通常使用词袋特征(bag-of-word feature)来代表文档。词袋模型介绍可以参考这篇文章:文本向量化表示——词袋模型 - 知乎了解LDA模型,我们需要先了解LDA的生成模型,LDA认为一篇文章是怎么形成的呢?
根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模型、离群点检测等模型。首先介绍一下分类与预测模型。一、分类预测模型实现过程分类模型主要是预测分类编号,预测模型主要是建立连续值函数模型,预测给定自变量对应的因变量的值。分类和预测的实现过程类似。以分类算法为例,分类算法主要有两步:第一步是学习步,通过归纳分析训练样本集来建立分类模型,得到分类规则;第二步是分类部,先用已知的测试样本
聚类算法是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法,是一种无监督学习方法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小而组间距离最大化。常用的聚类方法有:常见的聚类分析算法有:这里主要介绍一下最常用的K-Means聚类算法一、K-Means聚类算法简介K-Means算法是典型的基于距离的非层次聚类算法,在最小化误