
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
先创建测试数据:在hdfs中创建spark文件夹,再将本地文件上传过去[root@hadoop01 data]# hdfs dfs -mkdir /spark[root@hadoop01 data]# hdfs dfs -put /export/data/person.txt /spark在读取时会出现两个bug,解决如下:1、需要将hive中conf目录的配置文件hive-site.xml传到s
研究中常见两组的进行比较。即是一种事物相比另一种,有什么样的变化。如果这个变量是类别型,则可以直接使用相关性分析的方法,那么现在所分析的变量是连续型的组间比较,并假设为正态分布。 数据使用为MASS包的UScrime数据集,包含了1960年美国47个州刑罚制度对犯罪率影响的信息。需要的结果变量为Prob(监禁的概率)
案例:第一步:使用sklearn的make_moons生成如下数据,要求使用合适的聚类算法DBSCAN算法进行聚类分类,选择合适的参数eps,min_samples,得到比较好的聚类效果,并进行可视化。第二步:用K-means算法对上述的数据集再做聚类分析,并进行可视化(每个聚类的质心也要画出来),并对比两种聚类算法的效果。注:make_moons是用于生成两个交错半圆from sklearn.d
spark案例1、sparkpihadoop@ddai-master:/opt/spark-2.1.0-bin-hadoop2.7$ vim SparkPihadoop@ddai-master:/opt/spark-2.1.0-bin-hadoop2.7$ run-example SparkPi 10 > SparkPi.txtobject SparkPi {def main(args: A
有正确的label如图:有两个维度x1和x2,这里的1和2代表的是标签,即是分类结果,也就是正确结果,那么机器学习会按照这个结果自动帮你分界限,即无正确的label例如在个二维坐标内,可能只知道每个点的坐标其余的什么也不知道,即是没有包含正确结果的那么机器就会有很多种的分法,例如趋于监督学习和无监督学习之间有部分有正确结果,其他的没有的,即含少量正确结果,那么根据无监督学习分法,中间那条线就不再适
机器学习最常见的模型评估指标,其中包括:Precision(精确度)Recall(召回率)F1-score(F1值)PRC曲线ROC和AUCAccuracy(精度、准确率)和Error Rate(错误率)是分类模型中最常见的两种性能度量指标,既适用于二分类任务,也适用于多分类任务。对于分类模型f和大小为n的测试集D,Accuracy(精度)的定义为:Accuracy = 分对的样本点个数/总的测试
机器学习最常见的模型评估指标,其中包括:Precision(精确度)Recall(召回率)F1-score(F1值)PRC曲线ROC和AUCAccuracy(精度、准确率)和Error Rate(错误率)是分类模型中最常见的两种性能度量指标,既适用于二分类任务,也适用于多分类任务。对于分类模型f和大小为n的测试集D,Accuracy(精度)的定义为:Accuracy = 分对的样本点个数/总的测试







