
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
pom文件:<dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version></dependency><!-- https://mvnrepos
大数据基础项目——WordCount原理:分析:当数据发生Shuffle过程时,会划分成两个Stage一个Stage对应着三个Task一个分区对应着一个Task划分Stage的原因:数据本地化: - 移动计算,而不是移动数据 (移动数据不如移动计算) - 保证一个Stage内不会发生数据移动Spark Shuffle过程解析:在分区之间重新分配数据 - 父RDD中同一分区中的数据按照算子的要
StringIndexerStringIndexer是指将一组字符串类型的标签数据转化成数值类型的数据。其基本原理就是将字符串出现的频率进行排序,优先编码出现频率最高的字符串,索引的范围为0到字符串数量。如果输入的是数值型的,就会先把他转成字符串型的,然后再进行编码处理。在pipeline组件,比如Estimator和Transform中,想要用到字符串索引的标签的话,我们一般需要通过setInp
首先说一下分类和聚类的区别:分类:分类其实就是从特定的数据中挖掘模式,做出相对应的判断。例如对班级的学生进性性别的分类,我事先已经知道只有男性和女性两个分类。聚类:聚类的目的也是将数据分类,但是在事前不知道按照何种标准去分类,完全是靠算法自己来判别各条数据的相似性,相似的就放在一起。聚类和分类最大的不同在于:分类的目标是事先已知的,而聚类则完全不一样,举类事先不知道分类标准是什么,完全靠算法自己去
概述: UDF函数其实就是一个简单的函数,执行过程就是在Hive转换成MapReduce程序后,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF。 Hive可以允许用户编写自己定义的函数UDF,来在查询中使用。UDF类型:Hive中有三种UDF:UDF:操作单个数据行,产生单个数据行;UDAF:操作
SparkStreaming读Kafka:无状态流处理:object MyReadKafkaHandler {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("mytest").setMaster("local[2]")val sc = SparkContext.getOrCreate(con
导入数据忽略首行字段名称:create external table highschool(geographic_area string,city string,percent_completed_hs string)row format delimited fields terminated by ','stored as textfilelocation '/iii/HighSchool'tb
HBase安装包下载地址:https://pan.baidu.com/s/1qi2xaXXdan5vx3Bfxb4_7g提取码:09um提示:在安装HBase之前一定要安装Hadoop和ZooKeeper,具体安装教程在我之前的博客里有。HBase安装:1、将下载好的压缩包文件上传到Linux并解压tar -zxf /opt/hbase-1.2.0-cdh5.14.2.tar//个人习惯将软件放在
Spark创建DataFrame的三种方法:一、通过读取文件创建DataFrame:def main(args: Array[String]): Unit = {val spark = SparkSession.builder().master("local[1]").appName("mytest").getOrCreate()//header表示存在并使用表头//加载本地 若为hdfs则改为h
算法介绍:ALS是交替最小二乘法的简称,ALS特指使用交替最小二乘求解的一个协同过滤的推荐算法。通过观察用户对购买商品的评价,来推断每个用户的喜好并向用户推荐合适的商品。案例解析:西游记水浒传红楼梦三国演义简爱用户13748用户225用户36用户4741上表所描述的是一个用户对几本名著的一个评分结果。近似的可以理解成为一个矩阵。在现实的生产环境中,矩阵的行和列都会非常大,ALS的基本思想就是将一个