Clozzz 个人主页

@Clozzz

Clozzz

2023-07-04 15:31:38 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大数据基础之Hadoop——Java API hdfs读写

pom文件：<dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version></dependency><!-- https://mvnrepos

#hadoop #hdfs #大数据

大数据基础之Spark——Spark分布式计算原理（Spark Stage原理、Spark Shuffle过程、RDD依赖关系、DAG工作原理、RDD优化、RDD分区设计、数据倾斜问题）

大数据基础项目——WordCount原理：分析：当数据发生Shuffle过程时，会划分成两个Stage一个Stage对应着三个Task一个分区对应着一个Task划分Stage的原因：数据本地化： - 移动计算，而不是移动数据 (移动数据不如移动计算) - 保证一个Stage内不会发生数据移动Spark Shuffle过程解析：在分区之间重新分配数据 - 父RDD中同一分区中的数据按照算子的要

#spark #大数据

大数据进阶之算法——SparkML库 StringIndexer、IndexToString详解

StringIndexerStringIndexer是指将一组字符串类型的标签数据转化成数值类型的数据。其基本原理就是将字符串出现的频率进行排序，优先编码出现频率最高的字符串，索引的范围为0到字符串数量。如果输入的是数值型的，就会先把他转成字符串型的，然后再进行编码处理。在pipeline组件，比如Estimator和Transform中，想要用到字符串索引的标签的话，我们一般需要通过setInp

#算法 #机器学习 #深度学习

大数据进阶之算法——KMeans聚类算法

首先说一下分类和聚类的区别：分类：分类其实就是从特定的数据中挖掘模式，做出相对应的判断。例如对班级的学生进性性别的分类，我事先已经知道只有男性和女性两个分类。聚类：聚类的目的也是将数据分类，但是在事前不知道按照何种标准去分类，完全是靠算法自己来判别各条数据的相似性，相似的就放在一起。聚类和分类最大的不同在于：分类的目标是事先已知的，而聚类则完全不一样，举类事先不知道分类标准是什么，完全靠算法自己去

#聚类 #算法 #大数据

大数据基础之HIVE（四）——简单自定义UDF、UDTF、UDAF函数

概述： UDF函数其实就是一个简单的函数，执行过程就是在Hive转换成MapReduce程序后，执行java方法，类似于像MapReduce执行过程中加入一个插件，方便扩展。UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF。 Hive可以允许用户编写自己定义的函数UDF，来在查询中使用。UDF类型：Hive中有三种UDF：UDF：操作单个数据行，产生单个数据行；UDAF：操作

#hive #大数据

大数据基础之SparkStreaming——SparkStreaming读写Kafka

SparkStreaming读Kafka：无状态流处理：object MyReadKafkaHandler {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("mytest").setMaster("local[2]")val sc = SparkContext.getOrCreate(con

#spark #kafka #大数据

大数据基础之Hive——Hive导入数据忽略首行字段配置以及Hive、HBase互相映射配置

导入数据忽略首行字段名称：create external table highschool(geographic_area string,city string,percent_completed_hs string)row format delimited fields terminated by ','stored as textfilelocation '/iii/HighSchool'tb

#hive #hbase

大数据软件——HBase的安装教程

HBase安装包下载地址：https://pan.baidu.com/s/1qi2xaXXdan5vx3Bfxb4_7g提取码：09um提示：在安装HBase之前一定要安装Hadoop和ZooKeeper，具体安装教程在我之前的博客里有。HBase安装：1、将下载好的压缩包文件上传到Linux并解压tar -zxf /opt/hbase-1.2.0-cdh5.14.2.tar//个人习惯将软件放在

#大数据 #hbase

大数据基础之Spark——Spark DataFrame基本操作

Spark创建DataFrame的三种方法：一、通过读取文件创建DataFrame：def main(args: Array[String]): Unit = {val spark = SparkSession.builder().master("local[1]").appName("mytest").getOrCreate()//header表示存在并使用表头//加载本地若为hdfs则改为h

#数据库 #spark

大数据进阶之协同过滤推荐算法——SparkML ALS交替最小二乘法

算法介绍：ALS是交替最小二乘法的简称，ALS特指使用交替最小二乘求解的一个协同过滤的推荐算法。通过观察用户对购买商品的评价，来推断每个用户的喜好并向用户推荐合适的商品。案例解析：西游记水浒传红楼梦三国演义简爱用户13748用户225用户36用户4741上表所描述的是一个用户对几本名著的一个评分结果。近似的可以理解成为一个矩阵。在现实的生产环境中，矩阵的行和列都会非常大，ALS的基本思想就是将一个

#机器学习 #算法

共 29 条

请选择