
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
折线图也称为趋势图,它使用直线线段将个数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。折线图绘制函数:plot(x,y,style,color,linewidth)title(“图的标题”)参数说明:√ style,画线的样式√ color,画线的颜色√ linewidth,...
词云绘制1、语料库的搭建、分词来源、移除停用词、词频统计使用方法:os.path.join(path,name)#连接目录与文件名或目录 结果为path/nameimport osimport os.pathimport codecsfilePaths=[]fileContents=[]for root,dirs,files in ...
概念随机森林(RandomForest):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别数输出的类别的众数而定优点:适合离散型和连续型的属性数据;对海量数据,尽量避免了过度拟合的问题;对高维数据,不会出现特征选择困难的问题;实现简单,训练速度快,适合 进行分布式计算1 import pandas;23 data = panda...
语料库:是我们要分析的所有文档的集合使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称1、导入模块import osimport os.pathfilePaths=[]#建立一个空的列表来存放语料库的文件名称,数组变量for root,dirs,files in os.walk(...
概念决策树(Decision Tree):它通过对训练样本的学习,并建立分类规则,然后依据分类,对新样本数据进行分类预测,属于有监督学习优点:决策树易于理解和实现,决策树可处理数值型和非数值型数据步骤导入数据,确定虚拟变量的列,然后遍历这些列,将这些类的数据转换为分类型数据,再通过get_dummies()方法获取虚拟变量1 import ...
如何选择特征根据是否发散及是否相关来选择方差选择法先计算各个特征的方差,根据阈值,选择方差大于阈值的特征方差过滤使用到的是VarianceThreshold类,该类有个参数threshold,该值为最小方差的阈值,然后使用fit_transform进行特征值过滤相关系数法先计算各个特征对目标值的相关系数,选择更加相关的特征递归特征消除法使用一个...
概念监督学习(Supervised Learning)从给定标注的训练数据集中学习出一个函数,根据这个函数为新函数进行标注无监督学习(Unsupervised Learning)从给定无标注的训练数据中学习出一个函数,根据这个函数为所有数据标注分类(Classification) 分类算法通过对已知类别训练数据集的分析,从中发现分...
概念:神经网络:全称为人工神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型生物神经网络:神经细胞是构成神经系统的基本单元,称为生物神经元,简称神经元一般采用三到五层首先导入自变量和因变量1 import pandas;2 from pandas import read_csv;3...
关联规则方法:使用apyori包中的apriori方法,该方法传入训练样本,用一个数组把一个样板存储起来,接着是使用数组把所有的样本存储起来转载于:https://www.cnblogs.com/U940634/p/9784498.html...
预测(forecast):对尚未发生或目前还不明确的事物进行预先的估计和推测,简单来说就是指从已知事件测定未知事件时间序列预测(Time Series Forecasting):通过分析时间序列,根据时间序列所反映出来的发展进程、方向和趋势,进行类推或延伸,借以预测下一段时间或若干年内可能达到的水平。平稳型时间序列(stationary time ser...







