
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1、 python中数据可视化1.1、 seaborn库python中最常用的绘图工具包是matplotlib库,但是matplotlib中很多参数需要自己设置,灵活但繁琐,而且常常不知道如何设置(太多要设置的了)。这里主要对seaborn库进行介绍。官方文档。seaborn中的主要接口:1.1.1、 轴和界面设置方面FaceGrid(data[,row,col,hue,col_wrap,…])
本文是对官方文档的翻译整理1、数据类型Local vector(本地向量)Labeled point(带标签数据点)Local matrix(本地矩阵)Distrubuted matrix(分布式矩阵):RowMatrix、IndexedRowMatrix、CoordinateMatrix、BlockMatrixMLlib支持存储在单个机器上的本地的向量和矩阵,以及一个或多个RDD组
来源,官网spark1.6.1版本
本部分来源,也可以到spark官网查看英文版。使用spark-submit时,应用程序的jar包以及通过—jars选项包含的任意jar文件都会被自动传到集群中。spark-submit --class--master--jars Spark根目录的bin目录下spark-submit脚本用于在集群上启动应用程序,它通过统一接口使用Spark所支持的所有集群管理器,因此无需特殊配置每一个
来源DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的抗噪聚类方法)。和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。1. 密度聚类原理DBSCAN是一种基于密度的聚类算法,这类密度聚类算法一般假定类别可以通过样本分布的
贝叶斯分类器是基于贝叶斯定理构建出来的分类器,是一个统计分类器。对分类方法进行比较的有关研究表明,简单贝叶斯分类器在分类性能上与决策树和神经网络都是可比拟的。在处理大规模数据时,贝叶斯分类器已经表现出较高的准确性和运算性能。贝叶斯分类器的假设是:指定类别中,样本各特征之间相互独立,即某一特征不同取值的概率与其他特征的取值没有任何关系。我们的目标是计算P(H/X),式中X={x1,x2,…,xn}
1、时间序列时间序列是时间间隔不变的情况下收集的不同时间点数据集合,这些集合被分析用来了解长期发展趋势及为了预测未来。时间序列与常见的回归问题的不同点在于:1、时间序列是跟时间有关的;而线性回归模型的假设:观察结果是独立的在这种情况下是不成立的。2、随着上升或者下降的趋势,更多的时间序列出现季节性趋势的形式;常用的时间序列模型有AR模型、MA模型、ARMA模型和ARIMA模型等。2、时间
随机森林原理随机森林是建立在决策树基础上集成方法(决策树中,由于噪声等因素及高方差的影响,可能会产生一些错误的分支,在没有修剪树枝的时候更容易如此)。随机森林通过有放回的方式从原始样本中随机抽取部分样本产生新的样本集合,重复这样的操作产生多个样本集合,每个样本集合后续都会产生一棵决策树;在每棵决策树产生的过程中,在每个节点进行分支的时候都随机地抽取部分特征参与决策树的分支,然后递归分支,递归分支的
基于决策树的分类系列内容为自己学习数据挖掘的一个笔记本部分内容来源《数据挖掘导论》4.3节一、决策树生成算法所谓决策树,就是一个类似于流程图的树形结构,树内部的每一个节点代表的是对一个属性的测试,树的分支代表该属性的每一个测试结果,而树的每一个叶子节点代表一个类别。树的最高层是就是根节点。下图即为一个决策树的示意描述,内部节点用矩形表示,叶子节点用椭圆表示。该决策树用于对一个顾客是否会在本商场购
随机森林原理随机森林是建立在决策树基础上集成方法(决策树中,由于噪声等因素及高方差的影响,可能会产生一些错误的分支,在没有修剪树枝的时候更容易如此)。随机森林通过有放回的方式从原始样本中随机抽取部分样本产生新的样本集合,重复这样的操作产生多个样本集合,每个样本集合后续都会产生一棵决策树;在每棵决策树产生的过程中,在每个节点进行分支的时候都随机地抽取部分特征参与决策树的分支,然后递归分支,递归分支的







