logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据基础之Hadoop——Java API hdfs读写

pom文件:<dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version></dependency><!-- https://mvnrepos

#hadoop#hdfs#大数据
大数据基础之Spark——Spark分布式计算原理(Spark Stage原理、Spark Shuffle过程、RDD依赖关系、DAG工作原理、RDD优化、RDD分区设计、数据倾斜问题)

大数据基础项目——WordCount原理:分析:当数据发生Shuffle过程时,会划分成两个Stage一个Stage对应着三个Task一个分区对应着一个Task划分Stage的原因:数据本地化:  - 移动计算,而不是移动数据 (移动数据不如移动计算)  - 保证一个Stage内不会发生数据移动Spark Shuffle过程解析:在分区之间重新分配数据  - 父RDD中同一分区中的数据按照算子的要

#spark#大数据
大数据进阶之算法——SparkML库 StringIndexer、IndexToString详解

StringIndexerStringIndexer是指将一组字符串类型的标签数据转化成数值类型的数据。其基本原理就是将字符串出现的频率进行排序,优先编码出现频率最高的字符串,索引的范围为0到字符串数量。如果输入的是数值型的,就会先把他转成字符串型的,然后再进行编码处理。在pipeline组件,比如Estimator和Transform中,想要用到字符串索引的标签的话,我们一般需要通过setInp

#算法#机器学习#深度学习
大数据进阶之算法——KMeans聚类算法

首先说一下分类和聚类的区别:分类:分类其实就是从特定的数据中挖掘模式,做出相对应的判断。例如对班级的学生进性性别的分类,我事先已经知道只有男性和女性两个分类。聚类:聚类的目的也是将数据分类,但是在事前不知道按照何种标准去分类,完全是靠算法自己来判别各条数据的相似性,相似的就放在一起。聚类和分类最大的不同在于:分类的目标是事先已知的,而聚类则完全不一样,举类事先不知道分类标准是什么,完全靠算法自己去

#聚类#算法#大数据
大数据基础之HIVE(四)——简单自定义UDF、UDTF、UDAF函数

概述: UDF函数其实就是一个简单的函数,执行过程就是在Hive转换成MapReduce程序后,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF。 Hive可以允许用户编写自己定义的函数UDF,来在查询中使用。UDF类型:Hive中有三种UDF:UDF:操作单个数据行,产生单个数据行;UDAF:操作

#hive#大数据
大数据基础之SparkStreaming——SparkStreaming读写Kafka

SparkStreaming读Kafka:无状态流处理:object MyReadKafkaHandler {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("mytest").setMaster("local[2]")val sc = SparkContext.getOrCreate(con

#spark#kafka#大数据
大数据基础之Hive——Hive导入数据忽略首行字段配置以及Hive、HBase互相映射配置

导入数据忽略首行字段名称:create external table highschool(geographic_area string,city string,percent_completed_hs string)row format delimited fields terminated by ','stored as textfilelocation '/iii/HighSchool'tb

#hive#hbase
大数据软件——HBase的安装教程

HBase安装包下载地址:https://pan.baidu.com/s/1qi2xaXXdan5vx3Bfxb4_7g提取码:09um提示:在安装HBase之前一定要安装Hadoop和ZooKeeper,具体安装教程在我之前的博客里有。HBase安装:1、将下载好的压缩包文件上传到Linux并解压tar -zxf /opt/hbase-1.2.0-cdh5.14.2.tar//个人习惯将软件放在

#大数据#hbase
大数据基础之Spark——Spark DataFrame基本操作

Spark创建DataFrame的三种方法:一、通过读取文件创建DataFrame:def main(args: Array[String]): Unit = {val spark = SparkSession.builder().master("local[1]").appName("mytest").getOrCreate()//header表示存在并使用表头//加载本地 若为hdfs则改为h

#数据库#spark
大数据进阶之协同过滤推荐算法——SparkML ALS交替最小二乘法

算法介绍:ALS是交替最小二乘法的简称,ALS特指使用交替最小二乘求解的一个协同过滤的推荐算法。通过观察用户对购买商品的评价,来推断每个用户的喜好并向用户推荐合适的商品。案例解析:西游记水浒传红楼梦三国演义简爱用户13748用户225用户36用户4741上表所描述的是一个用户对几本名著的一个评分结果。近似的可以理解成为一个矩阵。在现实的生产环境中,矩阵的行和列都会非常大,ALS的基本思想就是将一个

#机器学习#算法
    共 29 条
  • 1
  • 2
  • 3
  • 请选择